

Attorney Docket No.: 16869N-104900US

Client Ref. No.: NT1432US

# IN THE UNITED STATES PATENT AND TRADEMARK OFFICE

In re application of:

KATSUYA TANAKA et al.

Application No.: 10/770,723

Filed: February 2, 2004

For: STORAGE DEVICE AND

**CONTROLLING METHOD** 

**THEREOF** 

Customer No.: 20350

Examiner: Unassigned

Technology Center/Art Unit: 2655

Confirmation No.: 2283

PETITION TO MAKE SPECIAL FOR NEW APPLICATION UNDER M.P.E.P. § 708.02, VIII & 37 C.F.R. § 1.102(d)

Commissioner for Patents P.O. Box 1450 Alexandria, VA 22313-1450

Sir:

This is a petition to make special the above-identified application under MPEP § 708.02, VIII & 37 C.F.R. § 1.102(d). The application has not received any examination by an Examiner.

- (a) The Commissioner is authorized to charge the petition fee of \$130 under 37 C.F.R. § 1.17(i) and any other fees associated with this paper to Deposit Account 20-1430.
- (b) All the claims are believed to be directed to a single invention. If the Office determines that all the claims presented are not obviously directed to a single invention, then Applicants will make an election without traverse as a prerequisite to the grant of special status.

05/02/2005 RFEKADU1 00000004 201430 10770723

01 FC:1464 130.00 DA

- (c) Pre-examination searches were made of U.S. issued patents, including a classification search and a key word search. The classification search was conducted on or around April 1, 2005 covering Class 369 (subclasses 47.15 and 47.36), Class 710 (subclass 316), and Class 711 (subclasses 101, 111, 112, 113, 114, 154, and 170), by a professional search firm, Lacasse & Associates, LLC. The key word search was performed on the USPTO full-text database including published U.S. patent applications. The inventors further provided four references considered most closely related to the subject matter of the present application (see references #7-10 below), which were cited in the Information Disclosure Statement filed with the application on February 2, 2004.
- (d) The following references, copies of which are attached herewith, are deemed most closely related to the subject matter encompassed by the claims:
  - (1) U.S. Patent No. 6,295,587 B1;
  - (2) U.S. Patent No. 6,587,919 B2;
  - (3) U.S. Patent No. 6,640,281 B2;
  - (4) U.S. Patent No. 6,701,411 B2;
  - (5) U.S. Patent Publication No. 2003/0191891 A1;
  - (6) U.S. Patent Publication No. 2005/0027919 A1;
  - (7) Japanese Patent Publication No. JP 2003-85117;
  - (8) Japanese Patent Publication No. JP 2000-222339;
  - (9) Japanese Patent Publication No. JP 2003-303055; and
  - (10) Qlogic Corp., "Full Duplex and Fibre Channel, Network Storage Group Host Products Technology Brief."
- (e) Set forth below is a detailed discussion of references which points out with particularity how the claimed subject matter is distinguishable over the references.

# A. Claimed Embodiments of the Present Invention

The claimed embodiments relate to controlling data transfer of a storage device.

Independent claim 1 recites a disk device comprising a disk controller comprising a channel adapter, a cache memory, and a disk adapter; and a disk array comprising disk drives, each being equipped with a plurality of I/O ports. The disk adapter and the disk array are connected via a switch. A destination drive I/O port to which a frame is to be forwarded is determined, according to the type of a command included in an exchange that is transferred between the disk adapter and one of the disk drives.

Independent claim 4 recites a disk device comprising a disk controller comprising a channel adapter, a cache memory, and a disk adapter; and a disk array comprising disk drives, each being equipped with a plurality of I/O ports. The disk adapter and the disk array are connected via a switch. A path which a frame passes to be transferred between the switch and one of the disk drives is determined, according to the type of a command included in an exchange between the disk adapter and the one of the disk drives.

Independent claim 6 recites a disk device comprising a disk controller comprising a channel adapter, a cache memory, and a disk adapter; and a disk array comprising disk drives, each being equipped with a plurality of I/O ports. The disk adapter and the disk array are connected via a switch. The disk adapter determines destination information within a frame to be transferred from the disk adapter to one of the disk drives, according the type of a command included in an exchange between the disk adapter and the one of the disk drives. The switch selects one of port to port connection paths between a port to which the disk adapter is connected and ports to which the disk drives constituting the disk array are connected to switch each frame inputted to the switch, according to the destination information within the frame.

Independent claim 7 recites a disk device comprising a disk controller comprising a channel adapter, a cache memory, and a disk adapter; and a disk array comprising disk drives, each being equipped with a plurality of I/O ports. The disk adapter and the disk array are connected via a switch. A destination drive port to which a frame is to be forwarded is determined, depending on whether the type of a command included in an

exchange that is transferred between the disk adapter and one of the disk drives is a data read command or a data write command. The exchange for reading data and the exchange for writing data are executed in parallel.

Independent claim 8 recites a disk device comprising a disk controller comprising a channel adapter, a cache memory, and a disk adapter; and a disk array comprising disk drives, each being equipped with a plurality of I/O ports. The disk adapter and the disk array are connected via a switch. A path which a frame passes between the switch and one of the disk drives is determined, depending on whether the type of a command included in an exchange between the disk adapter and the one of the disk drives is a data read command or a data write command.

Independent claim 9 recites a disk device comprising a disk controller comprising a channel adapter, a cache memory, and a disk adapter; a plurality of disk drives, each being equipped with a plurality of I/O ports; and a switch connecting the disk controller and the plurality of disk drives. A destination drive port to which a frame is to be forwarded is determined, depending on whether the type of a command included in an exchange that is transferred between the disk adapter and one of the disk drives is a data read command or a data write command. The exchange for reading data and the exchange for writing data are executed in parallel.

One of the benefits that may be derived is that a disk device having a back-end network that enables full duplex data transfer by simple control techniques an be realized, and that increased disk device throughput is achieved.

### B. Discussion of the References

None of the following references disclose determining (1) a destination drive port to which a frame is to be forwarded or (2) a path which a frame passes to be transferred between a switch and one of the disk drives or (3) destination information within a frame to be transferred from the disk adapter to one of the disk drives, according to the type of a command included in an exchange that is transferred between the disk adapter and one of the disk drives, as recited in independent claims 1, 4, 6, 7, 8, and 9. For instance, claim 1 recites a destination drive I/O port to which a frame is to be forwarded is determined, according to the type of a command included in an exchange that is transferred between the disk adapter

and one of the disk drives. Claim 4 recites a path which a frame passes to be transferred between the switch and one of the disk drives is determined, according to the type of a command included in an exchange between the disk adapter and the one of the disk drives. Claim 6 recites that the disk adapter determines destination information within a frame to be transferred from the disk adapter to one of the disk drives, according the type of a command included in an exchange between the disk adapter and the one of the disk drives. Claim 7 recites a destination drive port to which a frame is to be forwarded is determined, depending on whether the type of a command included in an exchange that is transferred between the disk adapter and one of the disk drives is a data read command or a data write command. Claim 8 recites a path which a frame passes between the switch and one of the disk drives is determined, depending on whether the type of a command included in an exchange between the disk adapter and the one of the disk drives is a data read command or a data write command. Claim 9 recites a destination drive port to which a frame is to be forwarded is determined, depending on whether the type of a command included in an exchange that is transferred between the disk adapter and one of the disk drives is a data read command or a data write command.

# 1. <u>U.S. Patent No. 6,295,587 B1</u>

The patent to Martin (6,295,587 B1), assigned to EMC Corp., provides for a Method and Apparatus for Multiple Disk Drive Access in a Multi-Processor/Multi-Disk Drive System. Disclosed is disk device 14, drive adapters 18, and adapter ports (AP) 20 and drive ports (DP) 24 of switch 22. AP 20 of switch 22 is connected to drive adapters 18 and DP 24 of switch 22 is connected to the input/output ports of disk devices 14. Disk identifier (ID) 48 and switch state (SS) 50 may control both the adapter 18 and switch 22 to establish appropriate connection between processor 12 and disk device 14. See column 3, line 48 to column 5, line 39; and Figure 1.

This reference relates to the use of a switch with a binding mapper and an address mapper. It does not teach determining (1) a destination drive port to which a frame is to be forwarded or (2) a path which a frame passes to be transferred between a switch and one of the disk drives or (3) destination information within a frame to be transferred from the disk adapter to one of the disk drives, according to the type of a command included in an

exchange that is transferred between the disk adapter and one of the disk drives, as recited in independent claims 1, 4, 6, 7, 8, and 9.

# 2. <u>U.S. Patent No. 6,587,919 B2</u>

The patent to Yanai et al. (6,587,919 B2), assigned to EMC Corp., provides for a System and Method for Disk Mapping and Data Retrieval. Disclosed is disk storage system 10 with means for receiving write commands and data such as channel adapter boards 12a-d, which receive disk read/write commands and data over communication channels 1-8. Disk adapter boards 20 read and write data to one or more disk drive units 22. Channel adapter boards 12a-d are connected to cache memory storage unit 16. When channel adapter boards 12a-d receive write commands, there is stored in memory an indication to disk adapters 20 that data record stored in cache must be written to the disk drives. See column 5, line 52 to column 6, line 18.

This reference relates to the use of a record locator data structure having variable-length data records for disk mapping and data retrieval. It does not teach determining (1) a destination drive port to which a frame is to be forwarded or (2) a path which a frame passes to be transferred between a switch and one of the disk drives or (3) destination information within a frame to be transferred from the disk adapter to one of the disk drives, according to the type of a command included in an exchange that is transferred between the disk adapter and one of the disk drives, as recited in independent claims 1, 4, 6, 7, 8, and 9.

# 3. U.S. Patent No. 6,640,281 B2

The patent to Obara et al. (6,640,281 B2), assigned to Hitachi, Ltd., provides for Storage Subsystem with Management Site Changing Function. Disclosed is disk controller 8, host interfaces 2, channel paths 9, cache memory 4, disk interfaces 5, and plurality of disk drives 6. Cache memory temporarily stores data written in disk controller and data read from disk drive 8 and output to the host. Data exchange between host computer 1 and disk controller is performed via channel path 9, where data is called a frame. Frame received at host interface 2 is identified for target volume and type of operation from the volume number field 24 and command/data field 25, where the input/output command is sent

to head disk assemblies (HDA) of disk drive. For read command, HDA returns the read data to the disk interface. See column 4, line 30 to column 6, line 20; and Figures 1 and 2.

This reference relates to a technique for transferring management of desired disk drives and volumes to be managed by an overload disk controller under access concentration to an optional disk controller not in an overload state while an application on the host and an ordinary process of the disk controllers are maintained to continue. It does not teach determining (1) a destination drive port to which a frame is to be forwarded or (2) a path which a frame passes to be transferred between a switch and one of the disk drives or (3) destination information within a frame to be transferred from the disk adapter to one of the disk drives, according to the type of a command included in an exchange that is transferred between the disk adapter and one of the disk drives, as recited in independent claims 1, 4, 6, 7, 8, and 9.

# 4. <u>U.S. Patent No. 6,701,411 B2</u>

The patent to Matsunami et al. (6,701,411 B2), assigned to Hitachi, Ltd., provides for a Switch and Storage System for Sending an Access Request from a Host to a Storage Subsystem. Disclosed is host adapter 101, diskarray interface (I/F) controller 1011 to control the diskarray switches 20, diskarray I/F 21, and host bus 1012 to perform communications and data transfer between cache memory 102 and diskarray I/F controller 1011. Lower adapter 103 executes control of disk I/F controller 1031 to control disk 104 and disk I/F. Diskarray switch 20 contains managing processor (MP) to perform functions such as management and control of diskarray switch and crossbar switch 201. During a read operation, switching controller (SC) 2022 reads the frame held in frame buffer (FB) 2021 and analyzes the frame header 401. Information such as ID for the frame transfer destination are included in the frame header. See column 4, line 55 to column 5, line 17; column 9, lines 27-45; and Figures 1 and 2.

This reference relates to the use of a switch connected between a first interface node and a plurality of second interface nodes to perform frame transfer between the first interface node and the second interface nodes based on node address information added to the frame. It does not teach determining (1) a destination drive port to which a frame is to be forwarded or (2) a path which a frame passes to be transferred between a switch and one of

the disk drives or (3) destination information within a frame to be transferred from the disk adapter to one of the disk drives, according to the type of a command included in an exchange that is transferred between the disk adapter and one of the disk drives, as recited in independent claims 1, 4, 6, 7, 8, and 9.

# 5. <u>U.S. Patent Publication No. 2003/0191891 A1</u>

The patent application publication to Tanaka et al. (2003/0191891 A1), assigned to Hitachi, Ltd., provides for a Disk Storage System having Disk Arrays Connected with Disk Adaptors through Switches. Disclosed is disk storage system comprising disk adapter DKA performing control required when data is transmitted and received between disk controller DKC and disk array DA, wherein DKA is connected to DA through channels D01-04. C1-4 are channels allowing communication between channel adapters CHA and CPU. Cache memory CM functions to temporarily store data inputted/outputted by disk storage system. Switch SW1 includes input/output ports P1-P5. During writing of data in DA, circuit configuration allows a frame in a block to be inputted from port P1 and outputted from ports P2-5. See paragraphs [0071], [0073], [0074], [0075], [0092], [0097], and [0098].

This reference discloses the use of switches between a disk adapter and a disk array to change over connection between ports to which the disk adapter is connected and ports to which disk drives constituting the disk array are connected in accordance with destination information in a frame for each of the inputted frames. It does not teach determining (1) a destination drive port to which a frame is to be forwarded or (2) a path which a frame passes to be transferred between a switch and one of the disk drives or (3) destination information within a frame to be transferred from the disk adapter to one of the disk drives, according to the type of a command included in an exchange that is transferred between the disk adapter and one of the disk drives, as recited in independent claims 1, 4, 6, 7, 8, and 9.

### 6. U.S. Patent Publication No. 2005/0027919 A1

The patent application publication to Aruga (2005/0027919 A1) provides for a Disk Subsystem. Disclosed is N disk array controllers 1-1 to 1-N, each with M disk drive interface controllers 2-1 to 2-M, where each of the M controllers of fibre channel fabric switch 3-1 to 3-M are respectively connected to the disk drive interface controllers 2-1 to 2-

M for controlling disk drive units through fibre channel interface 5. Data transferred between host computer and disk array are temporarily stored in cache memory. Switch controller 17 sets switch 18 based on the ID number received from disk drive interface controllers 2-1 to 2-M. See paragraphs [0023], [0025], and [0029]; and Figure 1.

This reference relates to the use of a protocol controller disposed between switches in a fiber channel fabric switch circuit and disk drive units for converting a protocol to enable one-to-one connectivity established between controllers and disk drive units. It does not teach determining (1) a destination drive port to which a frame is to be forwarded or (2) a path which a frame passes to be transferred between a switch and one of the disk drives or (3) destination information within a frame to be transferred from the disk adapter to one of the disk drives, according to the type of a command included in an exchange that is transferred between the disk adapter and one of the disk drives, as recited in independent claims 1, 4, 6, 7, 8, and 9.

# 7. <u>Japanese Patent Publication No. JP 2003-85117</u>

This reference provides a storage controlling device capable of efficiently using a full duplex type communication passage. The storage controlling device connects to an upward processing device through the full duplex type communication passage and stores and manages data received through the communication passage into a data storing means. The storage controlling device has a plurality of channel processors for inputting or outputting data from a data storing means in response to a command included in the data (frame) transmitted from the upward processing device, and assigns the channel processors for inputting or outputting the data related to the data (frame) in response to the command included in the data (frame).

As described in the present application at page 3, line 18 to page 4, line 2, the reference discloses that channel processors for inputting data to and outputting data from the disk device are controlled in accordance with a command from the host device and the quantity of data to be transferred so that full duplex operation is performed between the host device and the storage controlling device. However, dynamic control is required when data is transferred and its problem is complexity of the control method. Also, the reference does not deal with the full duplex data transfer in the back-end of a disk device. See page 5, lines 17-21.

This reference does not teach determining (1) a destination drive port to which a frame is to be forwarded or (2) a path which a frame passes to be transferred between a switch and one of the disk drives or (3) destination information within a frame to be transferred from the disk adapter to one of the disk drives, according to the type of a command included in an exchange that is transferred between the disk adapter and one of the disk drives, as recited in independent claims 1, 4, 6, 7, 8, and 9.

# 8. Japanese Patent Publication No. JP 2000-222339

This reference discloses a way to connect plural disk drives with a disk drive interface circuit without sacrificing transmitting performance by using a fiber channel fabric topology for reducing the number of connection lines by using a fiber channel interface as a serial interface, and for realizing switch connection. A fiber channel switch control circuit 3 is provided between a disk drive 4 and a disk drive interface control circuit 2, and protocol control part 16 is provided between a switch 18 in the fabric switch circuit 3 and the disk drive.

As described in the present application at page 4, lines 3-8, the reference discloses a disk array system where a disk array controller and disk drives are connected via a switch. The reference, however, does not deal with application of the technique to the backend of a disk drive equipped with a plurality of I/O ports and the full duplex data transfer in the back-end. See page 5, lines 22-25.

This reference does not teach determining (1) a destination drive port to which a frame is to be forwarded or (2) a path which a frame passes to be transferred between a switch and one of the disk drives or (3) destination information within a frame to be transferred from the disk adapter to one of the disk drives, according to the type of a command included in an exchange that is transferred between the disk adapter and one of the disk drives, as recited in independent claims 1, 4, 6, 7, 8, and 9.

# 9. Japanese Patent Publication No. JP 2003-303055

This reference discloses a disk storage system having high throughput between a disk adapter of a disk controller and a disk array. The disk adapter of the disk controller is connected to the disk array through switches. Data on a channel between the switch and a RAID group is multiplexed in the switch to be transferred onto a channel between the switch

and the disk adapter, and data on the channel between the switch and the disk adapter is demultiplexed in the switch to be transferred onto the channel between the switch and the RAID group. A data transfer rate on the channel between the disk adapter and the switch is made higher than that on the channel.

This reference relates to the use of a switch with multiplexing and demultiplexing to achieve higher throughput between a disk adapter of a disk controller and a disk array. It does not teach determining (1) a destination drive port to which a frame is to be forwarded or (2) a path which a frame passes to be transferred between a switch and one of the disk drives or (3) destination information within a frame to be transferred from the disk adapter to one of the disk drives, according to the type of a command included in an exchange that is transferred between the disk adapter and one of the disk drives, as recited in independent claims 1, 4, 6, 7, 8, and 9.

10. <u>Qlogic Corp., "Full Duplex and Fibre Channel, Network Storage Group Host Products Technology Brief."</u>

This reference discusses the meaning of full-duplex data transmission with fibre channel.

As discussed in the present application at page 3, lines 5-17, the reference discloses a plurality of FC-ALs in which disk drives are connected and a server are connected via a switch and parallel data transfers are carried out between the server and the plurality of FC-ALs. It does not take a disk drive having a plurality of I/O ports into consideration and it is difficult to apply the technique to a disk device comprising disk drives each having a plurality of I/O ports in the back-end. See page 5, lines 10-16.

This reference does not teach determining (1) a destination drive port to which a frame is to be forwarded or (2) a path which a frame passes to be transferred between a switch and one of the disk drives or (3) destination information within a frame to be transferred from the disk adapter to one of the disk drives, according to the type of a command included in an exchange that is transferred between the disk adapter and one of the disk drives, as recited in independent claims 1, 4, 6, 7, 8, and 9.

Appl. No. 10/770,723 Petition to Make Special

In view of this petition, the Examiner is respectfully requested to issue (f) a first Office Action at an early date.

Respectfully submitted,

Chun-Pok Leung Reg. No. 41,405

TOWNSEND and TOWNSEND and CREW LLP Two Embarcadero Center, 8<sup>th</sup> Floor San Francisco, California 94111-3834 Tel: 650-326-2400 Fax: 415-576-0300

Attachments

RL:rl

# PATENT ABSTRACTS OF JAPAN

(11)Publication number:

(43)Date of publication of application: 20.03.2003

(51)Int.CI.

G06F 13/10 G06F

3/06

G06F 13/12

(21)Application number: 2001-273932

(71)Applicant:

HITACHI LTD

(22)Date of filing:

10.09.2001

(72)Inventor:

MAEDA MASAMI

**AZUMI YOSHIHIRO** 

SAKAKI TOSHINORI

TSUKADA MASARU

### (54) STORAGE CONTROLLING DEVICE, AND ITS OPERATING METHOD (57) Abstract:

PROBLEM TO BE SOLVED: To provide a storage controlling device capable of efficiently using a full duplex type communication passage. SOLUTION: This storage controlling device connects to an upward processing device through the full duplex type communication passage and stores and manages data received through the communication passage into a data storing means. The storage controlling device has a plurality of channel processors for inputting or outputting data from a data storing means in response to a command included in the data (frame) transmitted from the upward processing device, and assigns the channel processors for inputting or outputting the data related to the data (frame) in response to the command included in the data (frame).



#### **LEGAL STATUS**

[Date of request for examination]

[Date of sending the examiner's decision of rejection]

[Kind of final disposal of application other than the examiner's decision of rejection or application converted registration]

[Date of final disposal for application]

[Patent number]

[Date of registration]

[Number of appeal against examiner's decision of rejection]

[Date of requesting appeal against examiner's decision of rejection]

[Date of extinction of right]

Copyright (C); 1998,2003 Japan Patent Office

# (19)日本国特許庁 (JP)

# (12) 公開特許公報(A)

(11)特許出願公開番号 特開2003-85117 (P2003-85117A)

(43)公開日 平成15年3月20日(2003.3.20)

| (51) Int.Cl. <sup>7</sup> | 識別記号     | ΡI         | テーマコード(参考) |
|---------------------------|----------|------------|------------|
| G06F 13/                  | 10 340   | G06F 13/10 | 340A 5B014 |
| 3/                        | 06 301   | 3/06       | 301A 5B065 |
| 13/                       | 12 3 4 0 | 13/12      | 340C       |

|                               |                             | 宋髓查審    | 未請求 請求項の数14 OL (全 14 頁)                              |  |  |
|-------------------------------|-----------------------------|---------|------------------------------------------------------|--|--|
| (21)出願番号                      | 特願2001-273932(P2001-273932) | (71)出願人 | 000005108<br>株式会社日立製作所                               |  |  |
| (22)出顧日 平成13年9月10日(2001.9.10) |                             |         | 東京都千代田区神田駿河台四丁目6番地                                   |  |  |
| •                             |                             | (72)発明者 | 前田 昌美<br>神奈川県小田原市中里322番地2号 株式<br>会社日立製作所RAIDシステム事業部内 |  |  |
|                               |                             | (72)発明者 | 安積 義弘<br>神奈川県小田原市中里322番地2号 株式<br>会社日立製作所RAIDシステム事業部内 |  |  |
|                               |                             | (74)代理人 | 100071283<br>弁理士 一色 健輔 (外5名)                         |  |  |

### 最終頁に続く

#### (54) 【発明の名称】 記憶制御装置およびその運用方法

# (57) 【要約】

【課題】 全二重方式の通信路を効率よく利用すること ができる記憶制御装置を提供する。

【解決手段】 全二重方式の通信路により上位処理装置 と接続し、通信路を通じて受信したデータをデータ記憶 手段に記憶管理する記憶制御装置において、上位処理装 置から送られてくるデータ(フレーム)に含まれるコマ ンドに対応してデータ記憶手段に対するデータ入出力処 理を行う複数のチャネルプロセサを備え、前記データ (フレーム) に含まれるコマンドの種類に応じてそのデ ータ(フレーム)に関する前記データ入出力処理を実行 するチャネルプロセサを割り当てるようにする。



#### 【特許請求の範囲】

【請求項1】 全二重方式の通信路により上位処理装置と接続し、前記通信路を通じて受信したデータをデータ記憶手段に記憶管理する記憶制御装置であって、

前記通信路を通じて上位処理装置から送られてくるデータ (フレーム) に含まれるコマンドに対応して前記データ記憶手段に対するデータ入出力処理を行う複数のチャネルプロセサを備え、前記データ (フレーム) に含まれるコマンドの種類に応じてそのデータ (フレーム) に関する前記データ入出力処理を実行するチャネルプロセサを割り当てる手段を備えることを特徴とする記憶制御装置。

【請求項2】 請求項1に記載の記憶制御装置であって、前記データ(フレーム)に含まれるコマンドの種類に応じてそのデータ(フレーム)に関するデータ入出力処理を実行する前記チャネルプロセサを割り当てる前記手段が、前記データ(フレーム)に含まれる前記コマンドが前記データ記憶手段にデータの書き込みコマンドであるかデータの読み出しコマンドであるかに応じて前記データ(フレーム)についての処理を行うチャネルプロセサを割り当てる手段であることを特徴とする記憶制御装置。

【請求項3】 請求項1に記載の記憶制御装置であって、前記通信路の送信路と受信路を流れるデータ量に応じて前記データ(フレーム)についての処理を行うチャネルプロセサを割り当てる手段を備えることを特徴とする記憶制御装置。

【請求項4】 請求項1に記載の記憶制御装置であって、前記データ(フレーム)に含まれるコマンドの種類に応じてそのデータフレームに関するデータ入出力処理を実行する前記チャネルプロセサを割り当てる前記手段を実行するかどうかを、前記データ記憶手段に対するデータの書き込みコマンドとデータの読み出しコマンドにより単位時間内に処理されたデータ量に応じて制御する手段を備えることを特徴とする記憶制御装置。

【請求項5】 請求項1に記載の記憶制御装置であって、前記データ(フレーム)に含まれるコマンドの種類に応じてそのデータ(フレーム)に関するデータ入出力処理を実行する前記チャネルプロセサを割り当てる前記手段を実行するかどうかを、前記各チャネルプロセサの処理待ちキューにキューイングされているデータ書き込みコマンドの数とデータ読み出しコマンドの数に応じて制御する手段を備えることを特徴とする記憶制御装置。

【請求項6】 請求項1に記載の記憶制御装置であって、前記データ(フレーム)に含まれるコマンドの種類に応じてそのデータ(フレーム)に関するデータ入出力処理を実行する前記チャネルプロセサを割り当てる前記手段を実行するかどうかを、前記各チャネルプロセサが前記データ入出力処理において単位時間内に処理したデータ量に応じて制御する手段を備えることを特徴とする

記憶制御装置。

【請求項7】 請求項1に記載の記憶制御装置であって、前記データ(フレーム)に含まれるコマンドの種類に応じてそのデータ(フレーム)に関するデータ入出力処理を実行する前記チャネルプロセサを割り当てる前記手段を実行するかどうかを、当該記憶制御装置における、前記データ記憶手段に対するデータ書き込みコマンドの処理についてのスループットと、前記データ記憶手段に対するデータ読み出しコマンドの処理についてのスループットに応じて制御する手段を備えることを特徴とする記憶制御装置。

【請求項8】 請求項4または6に記載の記憶制御装置であって、前記単位時間を当該記憶制御装置に接続された外部装置から指定させる手段を備えることを特徴とする請求項4または6に記載の記憶制御装置。

【請求項9】 全二重方式の通信路により上位処理装置に接続され、前記通信路を通じて受信したデータをデータ記憶手段に記憶管理し、前記通信路を通じて上位処理装置から送られてくるデータ(フレーム)に含まれるコマンドに対応して前記データ記憶手段に対するデータ入出力処理を行う複数のチャネルプロセサを備えて構成される記憶制御装置の運用方法であって、

前記データ(フレーム)に含まれる前記コマンドが前記 データ記憶手段にデータの書き込みコマンドであるかデ ータの読み出しコマンドであるかに応じて前記データ (フレーム)についての処理を行うチャネルプロセサを 割り当てるようにしたことを特徴とする記憶制御装置の 運用方法。

【請求項10】 全二重方式の通信路により上位処理装置に接続され、前記通信路を通じて受信したデータをデータ記憶手段に記憶管理し、前記通信路を通じて上位処理装置から送られてくるデータ(フレーム)に含まれるコマンドに対応して前記データ記憶手段に対するデータ入出力処理を行う複数のチャネルプロセサを備えて構成される記憶制御装置の運用方法であって、

前記通信路の送信路と受信路を流れるデータ量に応じて 前記データ(フレーム)についての処理を行うチャネル プロセサを割り当てるようにしたことを特徴とする記憶 制御装置の運用方法。

【請求項11】 全二重方式の通信路により上位処理装置に接続され、前記通信路を通じて受信したデータをデータ記憶手段に記憶管理し、前記通信路を通じて上位処理装置から送られてくるデータ(フレーム)に含まれるコマンドに対応して前記データ記憶手段に対するデータ入出力処理を行う複数のチャネルプロセサを備えて構成される記憶制御装置の運用方法であって、

前記データ(フレーム)に含まれるコマンドの種類と、 前記データ記憶手段に対するデータの書き込みコマンド とデータの読み出しコマンドにより単位時間内に処理さ れたデータ量とに応じてそのデータ(フレーム)に関す る前記データ入出力処理を実行するチャネルプロセサを 割り当てるようにしたことを特徴とする記憶制御装置の 運用方法。

【請求項12】 全二重方式の通信路により上位処理装置に接続され、前記通信路を通じて受信したデータをデータ記憶手段に記憶管理し、前記通信路を通じて上位処理装置から送られてくるデータ(フレーム)に含まれるコマンドに対応して前記データ記憶手段に対するデータ入出力処理を行う複数のチャネルプロセサを備えて構成される記憶制御装置の運用方法であって、

前記データ(フレーム)に含まれるコマンドの種類と、前記各チャネルプロセサの処理待ちキューにキューイングされているデータ書き込みコマンドの数とデータ読み出しコマンドの数とに応じてそのデータ(フレーム)に関する前記データ入出力処理を実行するチャネルプロセサを割り当てるようにしたことを特徴とする記憶制御装置の運用方法。

【請求項13】 全二重方式の通信路により上位処理装置に接続され、前記通信路を通じて受信したデータをデータ記憶手段に記憶管理し、前記通信路を通じて上位処理装置から送られてくるデータ(フレーム)に含まれるコマンドに対応して前記データ記憶手段に対するデータ入出力処理を行う複数のチャネルプロセサを備えて構成される記憶制御装置の運用方法であって、

前記データ(フレーム)に含まれるコマンドの種類と、前記各チャネルプロセサが前記データ入出力処理において単位時間内に処理したデータ量とに応じてそのデータ(フレーム)に関する前記データ入出力処理を実行するチャネルプロセサを割り当てるようにしたことを特徴とする記憶制御装置の運用方法。

【請求項14】 全二重方式の通信路により上位処理装置に接続され、前記通信路を通じて受信したデータをデータ記憶手段に記憶管理し、前記通信路を通じて上位処理装置から送られてくるデータ(フレーム)に含まれるコマンドに対応して前記データ記憶手段に対するデータ入出力処理を行う複数のチャネルプロセサを備えて構成される記憶制御装置の運用方法であって、

前記データ(フレーム)に含まれるコマンドの種類と、 当該記憶制御装置における、前記データ記憶手段に対す るデータ書き込みコマンドの処理についてのスループッ トと、前記データ記憶手段に対するデータ読み出しコマ ンドの処理についてのスループットとに応じてそのデー タ(フレーム)に関する前記データ入出力処理を実行す るチャネルプロセサを割り当てるようにしたことを特徴 とする記憶制御装置の運用方法。

# 【発明の詳細な説明】

[0001]

【発明の属する技術分野】この発明は、全二重方式の通信路により上位処理装置と接続し、前記通信路を通じて 受信したデータをデータ記憶手段に記憶管理する記憶制 御装置に関し、とくに、前記通信路を効率よく利用するための技術に関する。

[0002]

【従来の技術】メインフレームなどの上位処理装置と、ディスクアレイ装置などの記憶制御装置との間を結ぶ通信プロトコルとして、ファイバチャネルプロトコル(以下、「ファイバチャネル」と称する)が知られている(詳細はANSI(American National Standard for Information Technology)のFC-PH (Fibre Channel Physical and Signaling Protocol)を参照)。

【0003】ファイバチャネルは、2ポート間の物理接続が基本であり、一対のファイバチャネルポートは、物理的には送受信2本(全二重方式)の通信路で相互に接続されている。この通信路を通じて行われるファイバチャネルにおける記憶制御装置と上位処理装置との間の通信は、フレームと呼ばれるデータ単位を基本として行われる。また、複数のフレームの束はシーケンスと呼び、さらに、シーケンスの束はエクスチェンジと呼ぶ。例えば、上位処理装置から記憶制御装置に対してデータ読み出し命令(Read命令)に対応する一連の処理はエクスチェンジを単位として行われる。また、ファイバチャネルにおける上位処理装置と記憶制御装置との間の通信では、インターロックを取らずにコマンドやフレームを送受信することが可能である。

【0004】図1に、ファイバチャネルの通信路により 接続された記憶制御装置10と、これを利用する上位処 理装置20とを備えて構成されるデータ処理システムの 一例を示す。記憶制御装置10は、例えば、ディスクア レイ装置などであり、キャッシュメモリ11、ディスク ユニットなどのデータ記憶手段12、CPUやメモリな どを主体として構成される。そして、記憶制御装置10 は、上位処理装置20との間のデータ通信や処理対象と なるデータのチャネルプロセサ13への割り当ておよび 各種データやテーブルの管理や、チャネルプロセサ13 への各種命令のキューの管理などを行うチャネル制御部 14、チャネル制御部14から受信したフレームを切り 分けて各フレームに対応する処理やキャッシュメモリ1 1を通じたデータ記憶手段12へのデータ転送制御を実 行するチャネルプロセサ13などを備えている。一方、 上位処理装置20は、例えば、メインフレームやオフコ ン、パーソナルコンピュータなどである。

【0005】記憶制御装置10と上位処理装置20との間の通信において、記憶制御装置10は、受信したフレームの順に各フレームを処理するチャネルプロセサ13がを割り当てる。また、この際にチャネルプロセサ13が使用中の場合には、使用されていないチャネルプロセサ13がそのフレームの処理用に割り当てられることになる。

[0006]

【発明が解決しようとする課題】ところで、上位処理装

置20から記憶制御装置10に送られてくるフレームに含まれるコマンドは、主としてデータ記憶手段12へのデータの書き込みを指示するWRITEコマンドと読み出しを指示するREADコマンドに大別され、これらコマンドに対応する処理に際しては、WRITEコマンドもしくはREADコマンドの一方の種類のコマンドのみを含んだフレームが連続して上位処理装置20から送られてきた場合や、書き込みや読み出しの対象となるデータ量が大きいなどの理由により、複数のチャネルプロセサ13の双方が同時にWRITEコマンドもしくはREADコマンドのどちらか一方の処理のみを行っている期間が生じることがあり、この期間中は全二重通信が有効に機能しないことになる。

【0007】すなわち、例えば、チャネルプロセサ13が2つのみで構成されている場合には、前述した全二重方式の通信路のうち上位処理装置20から記憶制御装置10方向の通信路51(以下、「受信路」と称する)のみの通信負荷が高くなっているにもかかわらず、記憶制御装置10から上位処理装置20方向の通信路52(以下、「送信路」と称する)は殆ど利用されていないため、この期間中は全二重方式の通信路50が有効に機能しないことになる。

【0008】本発明はこのような事情に鑑みてなされた もので、全二重方式の通信路を効率よく利用することが できる記憶制御装置を提供することを目的とする。

#### [0009]

【課題を解決するための手段】この目的を達成するための、本発明の主たる発明は、全二重方式の通信路により上位処理装置と接続し、前記通信路を通じて受信したデータをデータ記憶手段に記憶管理する記憶制御装置であって、前記通信路を通じて上位処理装置から送られてくるデータ(フレーム)に含まれるコマンドに対応して前記データ記憶手段に対するデータ入出力処理を行う複数のチャネルプロセサを備え、前記データ(フレーム)に含まれるコマンドの種類に応じてそのデータ(フレーム)に関する前記データ入出力処理を実行するチャネルプロセサを割り当てる手段を備えることとする。

【0010】具体的には、例えば、ファイバチャネルにより接続された上位処理装置と記憶制御装置との通信の場合であれば、前述のインターロックが不要であるというファイバチャネルの特徴を利用して、フレームに含まれているコマンドが前記データ記憶手段に対する書き込み命令であるのか、読み出し命令であるのかに応じてそのフレームが所属するエクスチェンジを処理するチャネルプロセサをエクスチェンジでとに割り当てる。これにより、全てのチャネルプロセサが同時に書き込みもしくは読み出しの一方の処理のみを実行する期間が減り、これにより全二重方式の通信路の送信路と受信路の負荷バランスの均一化が図られ、通信路を効率よく利用することが可能になる。

[0011]

【発明の実施の形態】以下、本発明の一実施例によるデータ処理システムについて説明する。データ処理システムの構成は図1と同様であるので詳細な説明は省略し、以下では本発明の特徴的な部分を中心に説明する。また、説明の便宜のため、この実施例で説明する記憶制御装置10は、2つのチャネルプロセサ(以下、「CHP」と称する)13のみを備えるものとし、これらチャネルプロセサをCHP0、CHP1と称することとする。また、以下の説明では「WRITE」を「WR」と、「READ」を「RD」と、それぞれ略記する。

【0012】記憶制御装置10のチャネル制御部14のメモリ上には、上位処理装置20との間のデータ通信や、データ記憶手段12に対するデータの読み書き処理などの、上位処理装置20から送られてくるコマンドに応じて行われる処理に利用される各種テーブルが記憶管理されている。図2はこのうちのエクスチェンジ管理テーブル200である。このテーブル200には、上位処理装置20との間の通信において生成されたエクスチェンジが管理されている。

【0013】このテーブルのテーブル有効フラグ202 には、該当のエクスチェンジが現在処理中であるかどう かを示すビットがセットされ、処理中のエクスチェンジ については「1」が、処理中でないエクスチェンジにつ いては「0」がセットされる。デバイス番号203に は、そのエクスチェンジの処理対象となるデータ記憶手 段の記憶媒体(例えば、ディスクユニット)の識別番号 がセットされる。CHP番号205には当該エクスチェ ンジの処理を行うCHPの番号がセットされる。また、 通信領域ポインタ204には受信路51を通じて受信し たフレームが格納されているメモリ上の物理アドレス が、OX-ID (Originator Exchange\_ID) 207には 上位処理装置20側で割り当てられたエクスチェンジ番. 号がセットされ、S-ID(Source\_ID)208には送 信元のファイバチャネルのポートアドレスが、D-ID (Destination\_ID) 209には該当エクスチェンジの送 信先となるファイバチャネルのポートアドレスが、それ ぞれセットされる。

【0014】なお、以上の項目のうちテーブル有効フラグ以外の項目には、エクスチェンジが処理中である場合、すなわち、テーブル有効フラグが「1」の場合に値がセットされる。また、OX-ID207、S-ID208、D-ID209の値は、各エクスチェンジに一意に対応づけられ、例えば、上位処理装置20から連続してフレームが送られてきた場合に各フレームがどのエクスチェンジに所属しているか、フレームが先頭フレームであるか(エクスチェンジ管理テーブルにフレームが登録されていない場合)といったことは、各フレームにセットされているOX-ID207、S-ID208、D-ID209に一致するエクスチェンジをエクスチェンジ管理テーブル200から調べることで把握できる。

【0015】一方、図3は記憶制御装置10のメモリ上に記憶管理されているCHP割当処理管理テーブル300である。このテーブルのCHP割当処理実行フラグ301は、CHPの割当処理の実行制御に用いられる。このフラグの用途については後述する。

【0016】受信WRコマンドデータ量カウンタ302および受信RDコマンドデータ量カウンタ303には、チャネル制御部14が上位処理装置20からコマンドを受信した場合に、WRコマンドもしくは、RDコマンドにより処理されたデータ量が加算される。また、送信RDコマンドデータ量カウンタ304には、上位処理装置20から記憶制御装置10から上位処理装置20に送信されるデータ量がセットされ、CHP13から処理完了通知があり、あるエクスチェンジがエクスチェンジ管理テーブル200において無効化された際に値が加算される。

【0017】CHP0データ量カウンタ305、および CHP1データ量カウンタ306には、各CHP0, 1 が処理したデータのデータ量が加算される。RD/WRデー 夕比率閾値等の各種閾値307~311は、後述するC HPの割り当て処理の実行制御のために利用されるもの である。モニタリング実行間隔タイマ312、モニタリ ング実行間隔 I/O数 3 1 3 は、記憶制御装置 1 0 が実 行する各種ポーリング処理に際して参照されるパラメー 夕である。また、モニタリング開始時刻314とモニタ リング終了時刻315は、記憶制御装置10により処理 されたデータのスループットを算出する場合に用いられ る。I/O数カウンタ315は、I/O数でモニタリング するのに必要な情報であり、これには上位処理装置20 から送られてきた I/O要求数が加算される。ワークエ リア316は、各種計算やデータの一時的な保存などに 利用される。

【0018】図4は、チャネル制御部14のメモリ上に記憶管理されているRD/WRコマンドキュー管理テーブル401,410には、記憶制御装置20の処理対象となるRDコマンドもしくはWRコマンドのキューイング状態が、FIFO (First In First Out)方式で管理され、キューイング数を示すカウンタ402、先頭キューの格納アドレスを示すINポインタ403、末尾キューの格納アドレスを示すOUTポインタ404、キュー全体のデータサイズを管理するデータ転送量405、コマンドごとに対応するキュー管理情報406などが管理される。キュー管理情報406には、記憶制御装置20が割り当てたエクスチェンジ番号407とデータ転送量408、このエクスチェンジを実行するCHPの番号409などが記述されている。

【0019】つぎに、図5に示すフローチャートとともに、記憶制御装置10と上位処理装置20との間の全二 重方式の通信において記憶制御装置10が行う、CHP の割当処理について詳述する。

【0020】全年重方式の通信路のうち受信路51を通じて上位処理装置20からフレームを受信した場合、記憶制御装置10は、まず、そのフレームが新たなエクスチェンジの起動先頭フレームであるかどうかを調べる(501,502)。ここでフレームが起動先頭フレームであった場合には、未使用のエクスチェンジ番号を利用してそのフレームに対応するフィールドをエクスチェンジ管理テーブルに新たに登録する(503)。なお、フレームが起動先頭フレームでない場合の処理については後述する。

【0021】つぎに記憶制御装置10は、前記フレームのフレーム制御フィールド(F\_ControlField)を参照し、当該フレームの後続フレームの存在有無を調べる(507)。その結果、当該フレームが後続フレームを有する場合には、さらにこのフレームがRD/WRいずれかのコマンドを含むフレームであるかどうかを調べる(508)。なお、この調査は、例えば、記憶制御装置10内にあらかじめ登録しておいたコマンド一覧と、フレームのコマンド記述欄の内容を比較することで行う。

【0022】この調査の結果、このフレームがコマンドも含んでいない場合(もしくは、コマンドを含んでいるかどうかを判断できない場合)には、記憶制御装置10は、当該フレームを通常のCHP割当方式、すなわち、受信したフレームの順に各フレームを処理するチャネルプロセサ13を割り当て、また、あるフレームの割り当てに際してチャネルプロセサ13が使用中である場合には、使用されていないチャネルプロセサ13にそのフレームの処理させるというCHP割当方式により当該フレームの処理を行う(510)。

【0023】一方、前記フレームがRD/WRいずれかのコマンドを含むフレームである場合には、つぎのように処理が行われる。まず、フレームにWRコマンドが含まれていた場合、記憶制御装置10は、WRデータキュー管理テーブル401に当該フレームのエクスチェンジ番号とそのWRコマンドにより処理されるデータ量を登録する(511)。一方、当該フレームにRDコマンドが含まれていた場合には、記憶制御装置はRDデータキュー管理テーブルに当該フレームのエクスチェンジ番号と、そのREADコマンドにより処理されるデータ量を登録する(512)。なお、これら各キュー管理テーブルへの登録が行った場合には、各テーブルのカウンタ402およびOUTポインタ404に1を加算する。

【0024】つぎに記憶制御装置10は、条件管理テーブルのCHP割当処理実行フラグ301の状態を調査する。ここでCHP割当処理実行フラグ301に「1」がセットされていた場合には、CHPの割当処理を行うかどうかの判断する処理に進み(513,514)、当該フレームにWRコマンドが含まれていた場合は、エクスチェンジ管理テーブル200の当該フレームが所属するエ

クスチェンジのCHP番号205の欄に、そのエクスチェンジにCHP0を割り当てたことを示す「0」をセットし(515)、また、CHP割当処理管理テーブル300のCHP0データ量カウンタ305に当該フレームのデータ量を加算し(516)、当該フレームの処理を行うため当該フレームについての処理に必要なデータをCHP1に転送する(519)。なお、フレームにRDコマンドが含まれていた場合も、以上のWRコマンドの場合と同じようにして処理が行われる(512,514,517,518)。

【0025】一方、(513,514)の処理において、CHP割当処理実行フラグ301に「0」がセットされていた場合には、記憶制御装置10はコマンドの種類(WRコマンドであるかNDコマンドであるか)に応じたCHPの割当処理を行わず、その代わりにCHP割当処理管理テーブル300のCHP0データ量カウンタ305もしくはCHP1データ量カウンタ306の比率に基づいてCHPの割り当てを行う(521)。すなわち、この場合、記憶制御装置10は、CHP0データ量カウンタ305およびCHP1データ量カウンタ306の値を比較して、値の小さい方、すなわち、その時点で処理負荷の小さいCHPを当該フレームの処理用に割り当て、当該フレームの処理に必要なデータをそのCHPに転送する。

【0026】つぎに、(502)の処理において、フレームが起動先頭コマンドでなかった場合には、まず、フレーム情報(OX-ID,S-ID、LPN番号、デバイス番号)をキーとした場合に該当するエクスチェンジをエクスチェンジ管理テーブル200から検索する。そして、検索したエクスチェンジのCHP番号205に既に値がセットされていれば、当該フレームの処理に必要なデータをその値に対応するCHPに送信する(516)。

【0027】他方、CHP番号205に値がセットされていなかった場合、すなわち、そのフレームが所属するエクスチェンジに既にCHPが割り当てられていない場合には、(507)からの処理に進む。以上のようにして記憶制御装置10は受信したフレームをつぎつぎに処理していくことになる。

【0028】つぎに、以上の処理をより具体的に説明すべく、上位処理装置20から記憶制御装置10に対し、DX/LOC/WRCKDからなる1CCW (Channel Command Word) チェーン (例えば、「IBM 3990/9390 Storage Control Reference」を参照)のフレームが送られてきた場合の処理について、再度、図5のフローチャートに従って説明する。

【0029】記憶制御装置10は、DXコマンドを含んだフレームを受信すると、まず、このフレームが起動先頭コマンドフレームかどうかを判定する(508)。ここでDXコマンドはCCWチェーンの起動先頭コマンドであ

り、新たなエクスチェンジの起動先頭フレームであるので、記憶制御装置10はこのフレームに対応するエクスチェンジ管理テーブル200に新規に登録する。

【0030】つぎに記憶制御装置10は、前記フレームのフレーム制御フィールド(F\_ControlField)を参照し、当該フレームの後続フレームの存在有無を調べる(507)。その結果、後続フレームを有する場合には、さらにこのフレームがRD/WRいずれかのコマンドを含むフレームであるかどうかを調べる(508)。ここでDXコマンドは、READ/WRITEいずれのコマンドでも無いため、記憶制御装置10は、当該フレームを通常のCHP割当方式により割り当てたCHPにより処理することになる(510)。

【0031】つぎに、記憶制御装置10は、DXコマンドに引き続きCCWチェーンを構成するLOCコマンドを含むフレームを受信すると、このフレームが起動先頭コマンドであるかどうかを調べる(502)。ここでLOCコマンドが記載されたフレームは起動先頭コマンドで無いため、記憶制御装置10はこのフレームのフレーム情報(OX-ID,S-ID、LPN番号、デバイス番号)を用いてこのフレームに対応するエクスチェンジをエクスチェンジ管理テーブル200より検索する。そして、この場合には、前述のDXコマンドが記載されたフレームにより前記フレーム情報に対応するエクスチェンジが既にエクスチェンジ管理テーブル200に登録されているため、検索の結果、このエクスチェンジが検索されることになる。

【0032】つぎに、記憶制御装置10は、検索された エクスチェンジについて、当該エクスチェンジの処理用 に既にCHPが割り当てられているかどうかを当該エク スチェンジのCHP番号205を参照して調べる(50 6)。ここでこのエクスチェンジには、まだCHPの割 り当てがされていないので、(507)の処理において 当該フレームの後続チェーンが存在するかどうかを調べ る。ここでこのフレームには後続チェーン(WRCKDコマ ンドのフレーム)が存在するため、(508)の処理が 実行される。そして、LOCコマンドは、そのオペレーシ ョンコードからWRITEコマンドであることを判定できる コマンドであるため、(510)の処理へと移行して、 当該LOCコマンドをWRデータキュー管理テーブル410 に登録し、また、エクスチェンジ管理テーブル200の 当該フレームに対応するエクスチェンジのCHP番号2 05に「0」をセットする(511,513)。また、 CHP0データ量カウンタ305に当該LOCコマンドの 処理されるデータ量、例えば、当該コマンドによりディ スクユニットに書き込まれるデータのデータ量を加算す

【0033】つぎに、上位処理装置20からWRCKDコマンドが記載されたフレームが送られてきた場合には、記

憶制御装置10はこのフレームは起動先頭フレームでないため(502)、前述したLOCコマンドの場合と同様に当該フレームが所属するエクスチェンジ番号を検索する(505)。そして、この場合には、CHP番号205に既に値がセットされており、当該フレームが所属するエクスチェンジに既にCHPが割り当てられているため(506)、記憶制御装置10は当該コマンドの処理に必要なデータをそのCHP番号に対応するCHPに送信する。

【0034】以上に説明したように、記憶制御装置10はフレームに含まれるコマンドがRDコマンドであるかWRコマンドであるかに応じてそのフレームが所属するエクスチェンジの処理を行うCHPを割り当てる。従って、CHP0、1の双方が同時にWRもしくはRDの一方の処理を行う期間が減って、全二重方式の通信路の受信路51と送信路52の負荷のバランスが不均一になる期間を減らすことができる。

【0035】ところで、以上のようなCHPの割当方式を適用した場合でも、例えば、上位処理装置20からWRコマンドもしくはRDコマンドのいずれか一方のみを含むフレームが連続して送信されて長期間一方のCHPがその処理に占有されていたり、一のコマンドの処理対象となるデータのデータ量が大きい場合に前記の割当処理を実行してしまうと、かえって一方の通信路に負荷が片寄る結果となり、通信路の負荷のバランスが崩れてしまう可能性がある。そこで負荷分散をより徹底して行うようにするため、本発明の記憶制御装置10はさらに以下に示すような各種の機能を備えている。

【0036】このうち第1の機能は、CHPの割当処理 を行うかどうかを、上位処理装置20から送られてくる RDコマンドとWRコマンドのそれぞれにより処理されるデ ータ量の比率に応じて制御するようにしたものである。 具体的には、図6に示すように、ポーリング処理などに より適宜なタイミングである一定期間におけるCHP割 当処理管理テーブル300の受信WRコマンドデータ量力 ウンタ302と、受信RDコマンドデータ量カウンタ30 3の増分からRDコマンドとWRコマンドのそれぞれにより 処理されたデータ量の比率を算出(602)し、この比 率がCHP割当処理管理テーブル300のRD/WRデータ 量比率閾値を超えた場合にはCHP割当処理管理テープ ル300のCHP割当処理実行フラグ301に「0」を セットし(605)、RD/WRデータ量比率閾値以下の場合 にはCHP割当処理実行フラグ301に「1」をセット する(604)。なお、図6の例では、ポーリング機能 などにより以上の処理を実行するたびに、受信WRデータ カウンタと、受信RDデータカウンタの内容を初期化して いる(607)。

【0037】第2の機能は、各CHPのキューの状態に応じてCHP割当処理実行フラグを制御するようにしたものである。具体的には、ポーリング処理などにより一

定期間ごともしくは処理データが一定数に達する度ごとなどの適宜なタイミングで、RD/WRデータキュー管理テーブルから各CHP0,1にキューイングされているコマンドの数およびこれらコマンドの処理対象となるデータの全データ量を算出する。キューイングされているコマンド数はRD/WRキュー管理テーブルのカウンタの値により把握される。また、全データ量は、データ転送量により把握される。RDコマンドおよびWRコマンドそれぞれのキューイング数の比率、RDコマンドおよびWRコマンドそれぞれのデータ転送量の比率を、それぞれCHP割当処理管理テーブル300のCHPキューデータ数比率閾値309、CHPキューデータ量比率閾値310と比較し、閾値を超えているかどうかに応じてCHP割当処理実行フラグ301を制御する。図7は以上の処理の一例を示すフローチャートである。

【0038】第3の機能は、CHP割当処理管理テーブル300のCHP0,1データ量カウンタ305,306の比率に応じてCHP割当処理実行フラグ301を制御するようにしたものである。具体的には、一定時間毎にCHP0,1データ量カウンタ305,306の比率と、CHP割当処理管理テーブル300のCHPデータ比率閾値307とを比較し、閾値を超えているかどうかに応じてCHP割当処理実行フラグ301を制御する。図8にこの場合の処理の一例を示す。

【0039】第4の機能は、WRコマンドとRDコマンドの それぞれについて、記憶制御装置10が単位時間当たり に処理したデータ量(スループット)の比に応じてCH P割当処理実行フラグ301を制御するようにしたもの である。ここでWRコマンドとRDコマンドそれぞれについ てのスループットは、CHP割当処理管理テーブル30 0における受信WRコマンドデータ量カウンタ302およ び送信RDコマンドデータ量カウンタ304の変化率によ り算出する(901)。すなわち、図9に示すように、 ある時刻におけるこれらカウンタ値とこれから単位時間 経過後のこれらカウンタ値の差から単位時間当たりの処 理データ量であるスループットを算出し(901~90 3,907,908)、このようにして求めたスループ ットの比がCHP割当処理管理テーブル300のRD/ WRスループット比率閾値311を超えているかどうか に応じてCHP割当処理実行フラグ304を制御する (904).

【0040】以上に説明した第1~第4の機能によれば、上位処理装置20からWRコマンドもしくはRDコマンドのいずれか一方のみが記載されたフレームが連続して送られてきたり、一のコマンドの処理対象となるデータのデータ量が大きい場合における一方の通信路に負荷の片寄りを防ぐことが可能となり、フレームに含まれるコマンドの種類(RDコマンドもしくはWRコマンド)に応じてそのフレームを処理するCHPを割り当てることで、全二重通信における受信路と送信路の負荷分散を図る前

述した仕組みをより一層効果的に機能させることが可能となる。なお、以上に説明した第1~第4の機能は、全てを一度に適用しなければならない訳ではなく、このうちの1の機能のみを適用したり、いくつかの機能を選択して適用するようにしてもよい。

【0041】また、以上に説明した第1~第4の機能において、ポーリング処理の間隔を指定する数値、例えば、時間や処理データ数などの数値を、上位処理装置20や、記憶制御装置10に接続された運用管理端末などの外部装置から指定できるようにしてもよい。

【0042】ところで、以上の実施例は、通信プロトコルがファイバチャネルプロトコルである場合について説明したが、上位処理装置20と2以上のチャネルプロセサを備えた記憶制御装置10が全二重方式で結ばれる構成を備えるデータ処理システムであれば、通信プロトコルの種類に限定されることなく適用することができる。

【0043】以上の実施例は、記憶制御装置10が一つのチャネル制御部14に対し2つのCHP13を備えている場合について説明したが、一つのチャネル制御部14に対して3つ以上のCHP13を備えている場合にも適用できることはもちろんである。

#### [0044]

【発明の効果】以上に説明したように、本発明の記憶制 御装置によれば、全二重方式の通信路を効率よく利用す ることができる。

#### 【図面の簡単な説明】

【図1】本発明の一実施例によるデータ処理システムの 概略構成を示す図である。

【図2】本発明の一実施例によるエクスチェンジ管理テーブルを示す図である。

【図3】本発明の一実施例によるCHP割当処理管理テ

ーブルを示す図である。

【図4】本発明の一実施例によるRD/WRコマンドキュー 管理テーブルを示す図である。

【図5】本発明の一実施例によるCHP割当処理を説明 するフローチャートである。

【図6】本発明の一実施例による、CHP割当処理を行うかどうかを、RDコマンドとWRコマンドのそれぞれにより処理されるデータ量の比率に応じて制御する処理を説明するフローチャートである。

【図7】本発明の一実施例による、CHP割当処理を行うかどうかを、各CHPのキューの状態に応じてCHP割当処理実行フラグを制御する処理を説明するフローチャートである。

【図8】本発明の一実施例による、CHP割当処理を行うかどうかを、CHP0、1データ量カウンタの比率に応じて制御する処理を説明するフローチャートである。

【図9】本発明の一実施例による、CHP割当処理を行うかどうかを、WRコマンドとRDコマンドのそれぞれについて、記憶制御装置が単位時間当たりに処理したデータ量(スループット)の比に応じて制御する処理を説明するフローチャートである。

### 【符号の説明】

- 10 記憶制御装置
- 11 キャッシュメモリ
- 12 データ記憶手段
- 13 チャネルプロセサ
- 14 チャネル制御部
- 20 上位処理装置
- 51 受信路
- 5 2 送信路

[図2]

| 20  | )1 2º           | 02 203 | 20       | 4. 20    | 5 20 | 6 ż      | 07 20    | 8        | 209 210  |
|-----|-----------------|--------|----------|----------|------|----------|----------|----------|----------|
| EX# | 7-7'4有<br>效759' | デドは    | 通信製菓     | CHP      | 論理がよ | OX-1D    | 8-1D     | D-1D     | デラ量      |
| . 1 | 1               | 05     | 0x0000   | FF       | 0001 | 0004     | 0100     | 0200     | 2048     |
| 2   | 1               | 09     | 0x0040   | 01       | 0001 | 0005     | 0300     | 0400     | 4096     |
| 8   | 1               | 01     | 0×0080   | 00       | 0008 | 3000     | 0500     | 0600     | 8192     |
| 4   | 0               |        |          |          |      |          | <u> </u> | <u> </u> |          |
| :   |                 |        | <u> </u> | <u> </u> |      |          |          | L        | <u> </u> |
| ;   |                 |        |          |          |      | L        |          |          |          |
| x   | 0               |        | <u> </u> | <u>L</u> |      | <u> </u> | L        | L        |          |

[図3]

| •                  | •   |
|--------------------|-----|
| CHP 割当処理実行フラグ      | 301 |
| 受信 WR コマンドデータ量カウンタ | 302 |
| 受信 RD コマンドデータ量カウンタ | 303 |
| 送信 RD コマンドデータ最カウンタ | 304 |
| CHP0データ量カウンタ       | 305 |
| CHP1 データ量カウンタ      | 308 |
| CHアデータ比率関位         | 307 |
| RD/WRデータ比率関値       | 308 |
| CHPキューデータ数比率関値     | 309 |
| CHPキューデータ量比率関値     | 310 |
| RD/WRスループット比率関値    | 311 |
| モニタリング実行間隔時間       | 312 |
| モニタリング実行関隔 1/0数    | 313 |
| モニタリング開始時刻         | 314 |
| モニタリング終了時刻         | 315 |
| 1/0数カウンタ           | 816 |
| ワークエリア             | 317 |
|                    |     |





₹2-管理情報 1 \*\*\*管理情報 2 += 管理情報 8 ₹± 管理情報 4 ねー管理情報 X データ転送量 実行 CHP# EX# 410 ■ WRデータキュー管理テープト 2929 IN \* 心 \* OUT ギイバターデー を送量 ₹a-管理情報 1 和一管理情報 4 キュー管理信報の内容はRD ダータネュー管理アープルと同様

[図5]



[図6]



[図7]



【図8】



[図9]



# フロントページの続き

# (72) 発明者 榊 豪紀

神奈川県小田原市中里322番地2号 株式 会社日立製作所RAIDシステム事業部内

# (72)発明者 塚田 大

神奈川県小田原市中里322番地2号 株式 会社日立製作所RAIDシステム事業部内

Fターム(参考) 5B014 EB04 FB02 GD04 GD34 5B065 BA01 CA02 CA11 CC08 ZA13

# PATENT ABSTRACTS OF JAPAN

(11)Publication number:

2000-222339

(43)Date of publication of application: 11.08.2000

(51)Int.CI.

G06F 13/14 G06F 3/06 G06F 13/00 G06F 13/10

(21)Application num

(21)Application number: 11-024648

(71)Applicant:

HITACHI LTD

(22)Date of filing:

02.02.1999

(72)Inventor:

ARIGA KAZUHISA

#### (54) DISK SUB-SYSTEM

#### (57) Abstract:

PROBLEM TO BE SOLVED: To connect plural disk drives with a disk drive interface circuit without scarifying transmitting performance by using a fiber channel fabric topology for reducing the number of connection lines by using a fiber channel interface being a serial interface, and for realizing switch connection.

SOLUTION: A fiber channel fabric switch control circuit 3 is provided between a disk drive 4 and a disk drive interface control circuit 2, and protocol control part 16 is provided between a switch 18 in the fabric switch circuit 3 and the disk drive.



### LEGAL STATUS

[Date of request for examination]

[Date of sending the examiner's decision of rejection]

[Kind of final disposal of application other than the examiner's decision of rejection or application converted registration]

[Date of final disposal for application]

[Patent number]

[Date of registration]

[Number of appeal against examiner's decision of rejection]

[Date of requesting appeal against examiner's decision of rejection]

[Date of extinction of right]

Copyright (C); 1998,2003 Japan Patent Office

### (19)日本国特許庁(JP)

# (12) 公開特許公報(A)

(11)特許出願公開番号 特開2000-222339 (P2000-222339A)

(43)公開日 平成12年8月11日(2000.8.11)

| (51) Int.Cl. <sup>7</sup> |       | 識別記号  | F I                | テーマコード( <del>参考</del> ) |
|---------------------------|-------|-------|--------------------|-------------------------|
| G06F                      | 13/14 | 310   | G06F 13/14         | 310F 5B014              |
|                           | 3/06  | 301   | 3/06               | 301A 5B065              |
|                           |       | 3 0 5 |                    | 305C 5B083              |
|                           |       | 5 4 0 | ,                  | 5 4 0                   |
|                           | 13/00 | 301   | 13/00              | 301D                    |
|                           |       |       | 審査請求 未請求 請求項の数5 OL | (全 10 頁) 最終頁に続く         |

(21)出願番号

特願平11-24648

(22)出願日

平成11年2月2日(1999.2.2)

(71) 出願人 000005108

株式会社日立製作所

東京都千代田区神田駿河台四丁目6番地

(72) 発明者 有賀 和久

神奈川県小田原市国府津2880番地 株式会社日立製作所ストレージシステム事業部内

(74)代理人 100068504

弁理士 小川 勝男

Fターム(参考) 5B014 EA02 EA04 EB05 HA09 HA12

5B065 BA01 CA11 CA19 CA30 CE12

EA25 ZA11

5B083 AA08 BB01 BB03 CC02 CD13

EE08 EF11

# (54) 【発明の名称】 ディスクサブシステム

### (57)【要約】

【課題】ディスク制御装置とディスクドライブの接続においては、SCSIを用いたインタフェースが主流であるが、ディスクドライブが増加した場合に1本のインタフェースで1対1の接続を行う場合、現状のファイバチャネルを用いたディスクドライブでは、スイッチ接続が出来ない形式となっているので多数のインタフェースが必要となり、実装面で困難が生ずる。

【解決手段】ディスクドライブ4とディスクドライブインタフェース制御回路2との間にファイバチャネル・ファブリック・スイッチ制御回路3を設け、このファイバチャネル・ファブリック・スイッチ回路3内のスイッチ18とディスクドライブとの間にプロトコル制御部16を設ける。

#### 図 3 *--*2-1' ティスクト・ライフ・ ティスクト・ライブ 1/F 制御回路 I/F 制御回路 ファイハ チャネル <u>♥\_\_1</u>6 <u>★ 4</u>6 プ ロトコル プロトコル ファブ・リックスイッチ 制御部 制御部 制御回路 **-17** スイッチ 制御部 スイッチ スイッチ プロトコル プロトコル プロトコル 制御部 制御部 制御部 16'-/ 🛧 16<sup>2</sup>/ **1**416′ √,4(1, L) <del>√</del>,4(1, 1) **▼**,4(1, 2)

#### 【特許請求の範囲】

【請求項1】データを記憶する複数のディスクドライブ と、このディスクドライブ及びホストコンピュータから のデータの入出力を制御するディスクアレイ制御部とを 有し、このディスクアレイ制御部と前記ディスクドライ ブとをファイバチャネルにて接続したディスクサブシス テムにおいて、

前記ディスクアレイ制御部と前記ディスクドライブとを スイッチ接続したディスクアレイシステム。

【請求項2】データを記憶する複数のディスクドライブ と、このディスクドライブ及びホストコンピュータから のデータの入出力を制御するディスクアレイ制御部とを 有するディスクサプシステムにおいて、

前記ディスクドライブと前記ディスクアレイ制御部との間にスイッチとこのスイッチの切換え制御をするスイッチ制御部を設け、前記スイッチと前記ディスクドライブとの間、及び/または前記ディスクアレイ制御部と前記スイッチとの間にプロトコル制御部を設けたディスクサブシステム。

【請求項3】前記ディスクアレイ制御部と前記スイッチとの間、及び前記スイッチと前記ディスクドライブとの間とはファイバチャネルを用いて接続したものであり、前記スイッチはファイバチャネルファブリックスイッチである請求項2に記載のディスクサブシステム。

【請求項4】ホストコンピュータからのデータの入出力を制御するホストインタフェース制御部と、このホストインタフェース制御部で受けたデータを一時的に格納するキャッシュメモリと、前記データにパリティデータを付加するパリティデータ生成部と、前記データ及び前記パリティデータを記憶する複数のディスクドライブと、このディスクドライブに前記データを書き込むディスクドライブインターフェイスとからなるディスクアレイ制御部とを有するディスクサブシステムにおいて、

前記ディスクドライブインターフェイスにプロトコル制 御部とスイッチを設け、前記複数のディスクドライブを スイッチ接続したディスグサブシステム。

【請求項5】ホストコンピュータからのデータの入出力を制御するホストインタフェース制御部と、このホストインタフェース制御部と、このホストインタフェース制御部で受けたデータを一時的に格納するキャッシュメモリと、前記データにパリティデータを付加するパリティデータ生成部と、前記データ及び前記パリティデータを記憶する複数のディスクドライブと、このディスクドライブに前記データを書き込むディスクドライブインターフェイスとからなるディスクアレイ制御部とを有するディスクサブシステムにおいて、

前記ディスクアレイ制御部と前記ディスクドライブとの間をファイバチャネルを用いて接続し、前記ディスクアレイ部と前記ディスクドライブとの間に、アクセス対象となる前記ディスクドライブのID番号検出及びファイバチャネル・プロトコルの制御を行い前記ディスクドラ

イブインタフェースと接続される第一のプロトコル制御部と、各ディスクドライブのID番号を記憶しておりID番号によりスイッチを設定するスイッチ制御部と、前記ディスクドライブにこのID番号を割り付ける前記ディスクドライブ4と接続される第二のプロトコル制御とを備えたファブリックスイッチを設けたディスクサブシステム。

#### 【発明の詳細な説明】

#### [0001]

【発明の属する技術分野】本発明は、ディスクサプシステム、ディスクアレイ、ディスクドライブを内蔵した計算機等の電子機器に関し、特にアレイディスクをファブリックスイッチ接続し高速転送を可能とする技術に関する。

#### [0002]

【従来の技術】一般に、ディスクアレイにおいてディスク制御装置と複数のディスクドライブとを接続する場合には、特開平10-171746号公報に記載のようにSCSIインタフェース、若しくはファイバチャネル・アービトレイテッドループ・トポロジが利用されている。

【0003】SCSIインタフェースは、同一線路上にデータを時分割して転送する方式をとっており、イニシエータに対するアクセスは、1伝送路上に1時刻あたり1対1の通信を行う方式である。

【0004】ファイバチャネル・アービトレイテッドループ・トポロジでは、SCSIインタフェースに対して、シリアルインタフェースによりループ状にイニシエータ、ディスクドライブを接続することができ、フレームに分割されたデータを時分割して転送し、同時に多数デバイスの通信が行え、接続可能ディスクドライブ数も126と拡張できる。

#### [0005]

【発明が解決しようとする課題】今後ディスクドライブ の小型化・高密度化により、より多くのディスクドライ プを使用することが可能となると考えられる。

【0006】SCSIインタフェースは、1伝送路上に1時刻あたり1対1の通信を行う方式であるため同時に多数のイニシエータとディスクドライブの通信ができない。また、接続可能なディスクドライブの数も7から15台と少ない。そのためSCSIを用いたインタフェースでドライブが増加した場合に1本のインタフェースで1対1の接続を行おうとすると、多数のインタフェースが必要となり、実装面で困難が生ずる。また、1つの制御回路で接続可能なディスクドライブの数が少ないため、多数の制御回路を使用する必要が生じる。

【0007】一方、ファイバチャネルを使用した場合、ディスクドライブはプロトコルが制御装置とは異なるためにスイッチ接続が出来ず、多数のディスクドライブが同一ループを共有するファイバチャネル・アービトレイ

テッドループを用いてループ接続とせざるを得なかった。そのため、同一ループに接続されるディスクドライプ数を増加すると、ディスクドライブのデータ転送速度がループの最大データ転送速度よりも大きくなり、結果的にループの最大データ転送速度以上の効率では転送が行えなくなりSCSIインタフェースと同程度のデータ転送速度でしか接続できなかった。

#### [8000]

【課題を解決するための手段】上記課題を解決するため本発明では、ディスクドライブと制御装置とをスイッチ接続を可能とするため、プロトコル制御部をファイバチャネル・ファブリック・スイッチとディスクドライブとの間に設ける。

#### [0009]

【発明の実施の形態】以下、図面を用いて本発明を適用 した外部記憶装置(ディスクサプシステム)の実施例を 説明する。図1は全体図である。

【0010】図に示す外部記憶装置において、N個のデ ィスクアレイ制御回路(制御部)(1-1)~(1-N) (途中の1-2等は省略、以下同じ) は、上位側は ホストコンピュータ(図示せず)に接続され、下位側は M個のディスクドライブインターフェイス(ディスクド ライブ I / F) 制御回路 (2-1)~(2-M)を備え ている。ディスクアレイ制御回路のハード構成の詳細は 後述する。M個のファイバチャネル・ファブリック・ス イッチ制御回路 (3-1)~ (3-M) は、ファイバチ ャネル・インタフェース5によってディスクドライブを 制御するディスクドライブインターフェイス(I/F) 制御回路(2-1)~(2-M) にそれぞれ接続されて いる。そして一つのファイバチャネル・ファブリック・ スイッチ制御回路に対してし個、計M×L個のディスク ドライブ (4 (1, 1) ~ 4 (M, L)) は、ファイバ チャネル・インタフェース6によって、ファイバチャネ ル・ファブリック・スイッチ制御回路(3-1)~(3 -M) と接続されている。

【0011】また、各ディスクドライブインタフェース制御回路(2-1)~(2-M)、及びデータを格納しておくディスクドライブ4(1,1)~4(M,L)はそれぞれ個別の識別子(ID番号)をもつ。ファイバチャネル・ファブリック・スイッチ制御回路(3-1)~(3-M)は、ディスクドライブインタフェース制御回路(2-1)~(2-M)から接続するディスクドライブのID番号を受け取り、対応するディスクドライブインタフェース制御回路(2-1)~(2-M)とディスクドライブ4(1,1)~4(M,L)の1対1の接続を確立する。

【0012】図2にディスクアレイ制御回路(1-1)~(1-N)のハードウェア構成を示す。上位ホストコンピュータ(図示せず)から転送されるデータは、ホストインタフェース制御部7により制御されキャッシュメ

モリ8に一時格納されると共にパリティデータ生成部9によりパリティデータを付加され、データブロックとパリティデータブロックとに分解(全体でM個)される。これらのデータ及びパリティのブロックは、それぞれ対応するインタフェースであるディスクドライブインタフェース制御回路(2-1)~(2-M)によりディスクドライブグループ(図示せず)に格納される。

【0013】上位ホストコンピュータにデータを転送する場合は、転送するデータがキャッシュメモリ8に存在する場合には、そのデータをホストインタフェース制御部7が上位ホストコンピュータに転送する。転送するデータがキャッシュメモリ8に存在しない場合には、ディスクドライブインタフェース制御回路(2-1)~(2-M)がディスクドライブグループより分解されたデータを読み出し、パリティデータ生成部9で分解されたデータを結合した後にキャッシュメモリ8に一時格納するとともにホストインタフェース制御部7が上位ホストコンピュータに転送する。

【0014】なお、以上の例はRAIDを用いた場合のデータ格納方法であり、RAID方式を用いずにデータを格納することも当然可能である。その場合にはパリティデータ生成部9が存在せずに上位ホストコンピュータ(図示せず)から転送されるデータは、ホストインタフェース制御部7によりキャッシュメモリ8に一時格納すると共にディスクドライブがらデータを複数格納する。読み出す際にもディスクドライブからデータを読み出し、キャッシュメモリ8に一時格納するとともにホストインタフェース制御部7が上位ホストコンピュータに転送する

【0015】以下の例もRAIDを使用したディスクサプシステムについて説明するが、RAIDを用いた場合に限らないことはもちろんである。

【0016】図3にファイバチャネル・ファブリック・スイッチ制御回路(3-1)~(3-M)のハードウェア構成を示す。ディスクドライブインタフェース制御回路(2-1)と接続されるプロトコル制御部16(第一のプロトコル制御部)は、アクセス対象となるディスクドライブ4(1, 1)~4(1, L)のID番号検バスクドライブ4(1, 1)~4(1, L)と接続されるプロトコル制御部16、(第二のプロトコル制御部)はディスクドライブ4(1, 1)~4(1, L)と接続されるプロトコル制御部16、(第二のプロトコル制御部)はディスクドライブ4(1, 1)~4(1, 1) にID番号を割り付け、スイッチ制御部17に担当するディスクドライブ4(1, 1)~4(1, 1)のID番号を報告る。スイッチ制御部17は、各ディスクドライブ4

 $(1, 1) \sim 4 (1, L)$  の I D番号を記憶しており、ディスクドライブインタフェース制御回路  $(2-1) \sim (2-M)$  より受領した I D番号によりスイッチ 18 を

設定し、1対1の接続を確立する。

【0017】尚、プロトコル制御はプロトコル制御部16'側で行うように設定してもよいし、ホストコンピュータからのデータ転送時とホストコンピュータへデータ転送時とや、通常のデータ転送とディスク障害時のデータ移送とでプロトコル制御部16とプロトコル制御部16'とを切り換えるように設定してもよい。

【0018】また、プロトコル制御部16或いはプロトコル制御部16'の何れか一方のみとし、プロトコル制御部16の代わりにID番号検出手段を設ける、或いはプロトコル制御部16'の代わりにID番号割り付け手段を設けてもよい。

【0019】また、ファイバチャネル・ファブリック・スイッチを独立した装置としてではなく、ディスクドライブインターフェイス制御回路(2-1)~(2-M)内にプロトコル制御部とスイッチとを設け、直にディスクドライブ4(1, 1)~4(1, L)と接続するようにしてもよい。

【0020】図4にファイバチャネルファブリックスイッチ制御回路(3-1)~(3-M)の動作を示す。

【0021】ディスクアレイ制御回路(1-1)は、M個に分解されたデータをディスクドライブグループ(10-1)に格納する。この際、ディスクアレイ制御回路(1-1)のM個のディスクドライブインタフェース制御回路(2-1)~(2-M)は、ファイバチャネル・ファブリック・スイッチ制御回路(3-1)~(3-M)に対し、ディスクドライブグループ(10-1)に属するディスクドライブのID番号を送信し、スイッチの確立を行う。ファイバチャネル・ファブリック・スイッチ制御回路(3-1)~(3-M)内のプロトコル制御部16(図3参照)は、ID番号を検出し、スイッチ制御部17にスイッチ接続の切替を要求する。そしてディスクドライブに合わせたプロトコル制御を行う。スイッチ制御部17(図3参照)はスイッチ18(図3参照)を接続要求もとのディスクアレイ制御回路(1-

1) と接続要求先のディスクドライブグループ (10-1) に属するディスクドライブ4とを接続するよう切り 替える。

【0022】このとき、ディスクアレイ制御回路(1-1)は、ディスクドライブグループ(10-1)とファイバチャネル・ファブリック・スイッチ制御回路(3-1)~(3-M)を介して1対1で対応しているので、他のディスクアレイ制御回路(1-N)と他のディスクドライブグループ(10-2)は独立して他のデータ転送を行うことが出来る。つまり、ディスクアレイ制御回路(1-N)がディスクドライブグループ(10-L)に対する接続の確立を行っても、ディスクアレイ制御回路(1-1)とディスクドライブグループ(10-1)及びディスクアレイ制御回路(1-N)とディスクドライブグループ(10-1)

作することができるので、それぞれのディスクアレイ制 御回路及びディスクドライブ間で可能となる最高のデー 夕転送速度でデータ転送を行うことができる。

【0023】尚、詳細は説明しないが、スイッチ制御部 17は上記のスイッチ切換えを行うと共に、データ読み 書きの際にディスクドライブが既に読み書きを出来る状態になったという信号を受けてスイッチ18の接続切換えを行うことで転送時間を有効に最大限確保することができる。

【0024】図5に本発明の拡張された実施例を示す。 先に示した実施例において、ファイバチャネル・ファブ リック・スイッチ制御回路3のプロトコル制御部16と ディスクドライブ4とを1対1で対応させて接続してい た部分を、プロトコル制御部16からファイバチャネル・アーピトレイテッド・ループ制御回路11を介して複 数のディスクドライブ4をループ接続するしている。この様に接続することで、安価なディスクドライブ4を多 数の接続することで大容量のディスクドライブを備えた 場合と同等な性能にできる。この場合でも、全てのディスクドライブがループ接続となる訳ではなく、見かけ上 はファイバチャネル・アーピトレイテッド・ループ制御 回路11と多数のディスクドライブ4で一つのディスク ドライブ4であるので、アクセス性能は低下することが ない。

【0025】また図示はしないが、ディスクドライブのアクセス速度に対し、ファイバチャネルインタフェースの最大データ転送速度に充分余裕がある場合には、複数のディスクドライブ4をファイバチャネル・アービトレイテッド・ループ制御回路11に接続し、複数のディスクドライブを同一ループ内に接続し、ファイバチャネルの最大転送レートを複数のディスクドライブ4で共有することで、アクセス性能を低下させることなくディスクドライブ4を増加させることも可能である。

【0026】図6に図5に示した実施例に用いるアービトレイテッドループ制御回路11のハードウェア構成図を示す。

【0027】アービトレイテッドループ制御回路11は、ループバイパス回路13と複数のディスクドライブ接続ポート12、及びファブリックスイッチ接続ポート15からなる。ディスクドライブ4からはループバイバス回路切替信号14が出力され、ディスクドライブ障害時にはポートをバイパスさせ、ループを切断することなく、他の動作しているディスクドライブへ影響を与えずにディスクドライブの取り外し、追加を行うことを可能とする。

【0028】図7に本発明の他の拡張された実施例を示す。

【0029】本実施例は、各ファイバチャネル・ファブリック・スイッチ制御回路  $(3-1) \sim (3-M)$  に接続されるスペアディスク制御回路 19と、このスペアデ

ィスク制御回路19に接続される複数のスペアディスクドライブ(4-a), (4-b)を備えている。そしてファイバチャネル・ファブリック・スイッチ制御回路3内では、故障したディスクドライブ4を含むディスクドライブグループ(図では4(1,2)のディスクドライブグループ)と接続しているプロトコル制御部16

(図3参照) は、スイッチ18を介してスペアディスク制御回路19と接続しているプロトコル制御部16 に接続される。何れかのディスクドライブが障害を起こした場合、ディスクアレイ制御回路  $(1-1) \sim (1-N)$  は、スペアディスクドライブ (4-a) または (4-b) にデータの再構築を行う。

【0030】特定のディスクドライブ4にエラーが多発し故障のおそれが出た場合には、エラーが多発するディスクドライブ4のデータをスペアディスクドライブ(4-a)または(4-b)に移管させ再構築を行う。ディスクドライブ4が完全に破損してしまいデータの移管が不可能な場合には、破損したディスクドライブ4のディスクドライブグループのデータを用いて、図2に示したキャッシュメモリ8とパリティデータ生成部9にて破損データを再生しスペアディスクドライブ(4-a)または(4-b) に書き込む。

【0031】或いは、スペアディスク制御回路19が独立して行うようにしてもよい。そのためこのスペアディスク制御回路19内にキャッシュメモリやパリティデータ再生部を備える。そして、ディスクドライブ4が完全に破損した場合には、残りのディスクドライブグループのデータをスペアディスク制御回路19で読み込み、破損データを再生してスペアディスクドライブ(4-a)または(4-b)に書き込むようにする。

【0032】そのため、故障したディスクドライブ4或いは故障個所を修復するためにパリティデータを含め分割されたデータを記憶した各ディスクドライブからスペアディスク制御回路19へのアクセスと、ディスクアレイ制御回路 $(1-1)\sim(1-N)$ を介して行うディスクドライブ4(図では4(1,1)及び4(1,L)のディスクドライブグループ)とホストコンピュータからのデータアクセスとが独立して動作可能となることで、ホストコンピュータのデータアクセスに影響を与えずにデータの再構築を行うことを可能とする。

【0033】また、障害ディスクドライブが正常ディスクドライブと取り替えられた場合も同様にして、スペアディスク制御回路15がファイバチャネル・ファブリック・スイッチ制御回路(3-1)~(3-M)に対し、スペアディスクドライブ(4-a),(4-b)と、障害ディスクドライブから取り替えられた正常ディスクド

ライブと 1 対 1 の接続を行い、ディスクアレイ制御回路  $(1-1) \sim (1-N)$  とディスクドライブグループ  $(10-1) \sim (10-L)$  (図 4 参照) とのアクセス を妨げることなく、独立してデータのコピーを行うことで、ホストコンピュータからのアクセスにまったく影響 なく障害ディスクドライブの復旧を行うことができる。 【0034】

【発明の効果】本発明により、シリアルインタフェースであるファイバチャネルインタフェースを用い接続線数を減少させ、さらにスイッチ接続を可能とするファイバチャネル・ファブリック・トポロジを用いることでディスクドライブインタフェース回路に多数ディスクドライブを伝送性能を犠牲にすることなく接続することが可能となる。また、各制御装置、ディスクドライブグループ毎に接続を動的に切り替えることで、少数のディスクドライブ制御回路で多数のディスクドライブを制御することができる。更に、ディスクドライブ障害時のデータ移行をディスクドライブインタフェース制御回路とディスクドライブのデータ転送と独立して行うことでシステムの信頼性を向上させることができる。

【図面の簡単な説明】

【図1】本発明実施例の全体図である。

【図2】ディスクアレイ制御回路の詳細図である。

【図3】ファイバチャネルファブリックスイッチ制御回路の詳細図である。

【図4】ファイバチャネルファブリックスイッチの接続 図である。

【図 5】ファイバチャネルファブリックスイッチとアー ビトレイテッドループの接続図である。

【図6】ファイバチャネルアービトレイテッドループ制 御回路の詳細図である。

【図7】スペアディスク制御回路の接続図である。 【符号の説明】

1…ディスクアレイ制御回路、2…ディスクドライブインタフェース制御回路、3…ファイバチャネルファブリックスイッチ制御回路、4…ディスクドライブ、5…ファイバチャネルインタフェース、6…ファイバチャネルインタフェース、7…ホストインタフェース制御部、8…キャッシュメモリ、9…パリティデータ生成部、10…ディスクドライブグループ、11…ファイバチャネルアービトレイテッドループ制御回路、12…ディスクドライブ接続ポート、13…ループバイパス回路、14…ループバイパス信号切替信号、15…ファブリックスイッチ接続ポート、16…プロトコル制御部、17…スイッチ制御部、18…スイッチ、19…スペアディスク制御回路。

【図1】

# 図 1



【図2】

【図3】





【図4】

# 図 4



【図5】

# 図 5



[図6]

図 6



【図7】

## 図7



フロントページの続き

(51) Int. Cl. 7 G06F 13/10 識別記号

3 4 0

FΙ

G06F 13/10

テーマコート (参考)

3 4 0 A

[Patent Document]

1. Japanese Patent Laid Open No. 2003-303055

Disk storage system having disk arrays connected with disk adaptors through switches

Hitachi, Ltd.

Inventor(s):Tanaka, Katsuya ;Fujimoto, Kazuhisa

Application No. 10/212882, Filed 20020807, A1 Published 20031009

Abstract:

A disk storage system has high throughput between a disk adapter of a disk controller and a disk array. The disk adapter of the disk controller is connected to the disk array through switches. Data on a channel between the switch and a RAID group is multiplexed in the switch to be transferred onto a channel between the switch and the disk adapter and data on the channel between the switch and the disk adapter is demultiplexed in the switch to be transferred onto the channel between the switch and the RAID group. A data transfer rate on the channel between the disk adapter and the switch is made higher than that on the channel.

US.Class: 711114 711154

# ディスクアダプタとディスクアレイをスイッチ を介して接続したディスク装置

盐 华 噩 (12) \$\forall (12) (19) 日本国格群庁 (JP)

(11)特許出顧公開番号 € 翐

4

₹-

| 作用2003-303055<br>(P2003-303055A)<br>平底16年10月24日かの2、10・2 | 7-73-1 (\$\$\$) |          |      |      |          |  |
|---------------------------------------------------------|-----------------|----------|------|------|----------|--|
| 4年開2003<br>(P2003 — 平成15年10日                            |                 | 301M     | 301B | 302A | 540      |  |
| (43)公開日                                                 |                 | 3/06     |      |      |          |  |
| , ·                                                     | FI              | G06F     |      |      |          |  |
| ٠.                                                      |                 | -        |      |      |          |  |
|                                                         | E19             | <b>-</b> |      | N (  | <b>-</b> |  |
|                                                         | 數別記号            | 301      | •    | 30.0 | 5.40     |  |

3/06

G06F (51) Int CL.

|          |                             | 華克雅夫     | 審査請求 未請求 朗求項の数 B OL (全 14 頁)            |
|----------|-----------------------------|----------|-----------------------------------------|
| (21)出職番号 | 特国2002-106262(P2002-106262) | (71) 出題人 | (71)出間人 000005108                       |
| (22) 出顧日 | 平成14年4月9日(2002.4.9)         |          | 株式会社日立製作所<br>東京都千代田区神田駿河台四丁目 6          |
|          |                             | (72)発明者  |                                         |
|          |                             |          | 東京都国分母市東較ケ艦一丁目280番地                     |
|          |                             |          | 株式会社日立製作所中央研究所内                         |
| •        |                             | (72)発明者  |                                         |
|          |                             |          | 東京都国分寺市東密ケ臨一丁目280番地                     |
|          |                             |          | 株式会社日立製作所中央研究所内                         |
|          |                             | (74) 代理人 |                                         |
|          |                             |          | 弁理士 伊藤 修 (外1名)                          |
|          |                             | アターム(物   | Fターム(動物) 5B065 BA01 CA04 CA07 CA12 CA15 |
|          |                             |          | CA30 CC08 CE11 CH01                     |
|          |                             |          |                                         |

ディスクアダプタとディスクアレイをスイッチを介して接続したディスク芸師 (54) [発明の名称]

57) [要約]

【課題】 ディスクコントローラのディスクアダプタと ディスクアレイ間のスループットが高いディスク装置を 提供することにある。

アダプタ (DKA) とディスクアレイ (DA) をスイッチ (SW1, SW スイッチ (SWI) とディスクアダプタ (DKA) 間のチャネル (D ータをスイッチ (S#I)において多重化してスイッチ (S#I) 01) 上のデータをスイッチ(SW1)において逆多風化してス 【解決手段】 ディスクコントローラ (DKC)のディスク 2. SW3, SW4) を介して接続する。スイッチ (SW1) とRA I Dグループ(81)間のチャネル(011,012,013,014)上のデ イッチ (SMI) とR.A.I Dグループ(RI) 間のチャネル(DII, とディスクアダプタ (DKA)間のチャネル (D01) に転送し、 D12, D13, D14)に転送する。ディスクアダプタ (DKA) とス イッチ(SWI)間のチャネル(DDI)上のデータ転送速度を、 チャネル(011,012,013,014)のデータ転送速度より高く

0000 O Ю

[特許請求の範囲]

വ S 0 03 特開2003-3

ディスクアダプタとディスクアレイをスイッチ を介して接続したディスク装置

からなり、前起ディスクコントローラはチャネルアダプ [酵求項1] ディスクコントローラとディスクアレイ タとキャッシュメモリとディスクアダプタを有するディ スク装置において、

前記ディスクアダプタと前起ディスクアレイを、バッフ アメモリを有するスイッチを介して接続し、

前記スイッチは、前記ディスクアダプタが接続されたポ - トと前記ディスクアレイを構成するディスクドライブ が接続された各ポートとの関でのポート間の接続の切り 模えを、入力されたフレーム毎に、 酸フレーム内の送信 先情報にしたがって行うことを特徴とするディスク装

アレイからなり、前記ディスクコントローラはチャネル 【醇状項2】 ディスクコントローラと複数のディスク アダプタとキャッシュメモリとディスクアダプタを有す るディスク装置において、

のディスクアレイとをパッファメモリを有するスイッチ 前記ディスクアレイはループ状に接続した複数のディス クドライブからなり、前紀ディスクアダプタと前紀複数 を介して格談し 前記ディスクアダプタと前記スイッチ間のチャネル当り データ転送速度を、前配スイッチと前配複数のディスク アレイ間のチャネル当りデータ転送速度より高く設定 前記スイッチは、前記ディスクアダプタが接続されたポ - トと前配複数のディスクアレイが接続された各ポート との間でのポート間の接続の切り換えを、入力されたフ レーム毎に、核フレーム内の送信先情報にしたがって行 ことを特徴とするディスク装置。

【酵求項3】 ディスクコントローラとディスクアレイ: からなり、前記ディスクコントローラはチャネルアダプ タとキャッシュメモリとディスクアダプタを有するディ スク装置において、

前配ディスクアダプタと前起ディスクアレイを、パッフ ・メモリを有するスイッチを介して接続し、

同一のスイッチに接続したディスクドライブの組み合わ 前記ディスクアダプタと前記スイッチ間のチャネル当り せでRAIDグループを構成し、

データ転送速度を、前配スイッチと前配ディスクアレイ

前配スイッチは、前配ディスクアダプタが接続されたポ り換えを、入力されたフレーム毎に、眩フレーム内の送 プが接続された各ポートとの間でのポート間の接続の切 **信先情報にしたがって行うことを特徴とするディスク藝** ートと前配RAIDグループを構成するディスクドライ 間のチャネル当りデータ転送速度より髙く設定し、

【酵状項4】 第1のディスクコントローラと第2のデ 第1のディスクコントローラは第1のチャネルアダプタ ィスクコントローラと複数のディスクアレイからなり、

プタを接続し、

と第1のキャッシュメモリと第1のディスクアダプタを

と第2のキャッシュメモリと第2のディスクアダプタを 第2のディスクコントローラは第2のチャネルアダプタ 有するディスク装置において、 9

第1のディスクアダプタと前記複数のディスクアレイと をパッファメモリを有する第1のスイッチを介して接続 し、且つ第2のディスクアダプタと前配複数のディスク アレイとをパッファメモリを有する第2のスイッチを介 ダブタを接続し、第2のスイッチと第1のディスクアダ して接続し、さらに第1のスイッチと第2のディスクア プタを接続し、 2

2 のディスクアダプタと第 1 のスイッチ間のチャネル当 クアレイ間のチャネル当りデータ転送速度より高く設定 **育1のディスクアダプタと第1のスイッチ間、および算** りデータ転送速度を第1のスイッチと前配複数のディス 2

第2のディスクアダプタと第2のスイッチ間、および第 1のディスクアダプタと第2のスイッチ間のチャネル当 りデータ転送速度を第2のスイッチと前配複数のディス クアレイ間のチャネル当りデータ転送速度より高く設定

のディスクアダプタが接続されたポートと前記複数のデ イスクアレイが接続された各ポートとの間でのポート間 第1のスイッチは、第1のディスクアダプタまたは第2 の接続の切り換えを、入力されたフレーム毎に、故フレ 一ム内の送信先情報にしたがって行い、

イスクアレイが接続された各ポートとの間でのポート間 第2のスイッチは、第1のディスクアダプタまたは第2 のディスクアダプタが接続されたポートと前配複数のデ の接続の切り換えを、入力されたフレーム毎に、眩フレ **--ム内の送信先情報にしたがって行うことを特徴とする** 

【酢求項5】 第1のディスクコントローラと第2のデ と第1のキャッシュメモリと第1のディスクアダプタを 第1のディスクコントローラは第1のチャネルアダプタ イスクコントローラと複数のディスクアレイからなり、 35

第2のディスクコントローラは第2のチャネルアダプタ 40 と第2のキャッシュメモリと第2のディスクアダプタを 有するディスク装置において、

第1のディスクアダプタと前記複数のディスクアレイと をパッファメモリを有する第1のスイッチを介して接続 アレイとをバッファメモリを有する第2のスイッチを介 し、且つ第2のディスクアダプタと前記複数のディスク ダブタを接続し、第2のスイッチと第1のディスクアダ して接続し、さらに第1のスイッチと第2のディスクア

50 2のディスクアダプタと第1のスイッチ間のチャネル当 第1のディスクアダプタと第1のスイッチ間、および第

ディスクアダプタとディスクアレイをスイッチをかして接続したディスク装置

りデータ転送速度を第1のスイッチと前記複数のディス クアレイ間のチャネル当りデータ転送速度より高く設定

1のディスクアダプタと第2のスイッチ間のチャネル当 第2のディスクアダプタと第2のスイッチ間、および第 **クアレイ間のチャネル当りデータ転送速度より高く設定** りデータ転送速度を第2のスイッチと前記複数のディス

ダプタと第2のスイッチ間を接続したチャネルと同等の ダブタと第1のスイッチ間を接続したチャネルと同等の のディスクアダプタまたは第2のスイッチが接続された フレーム毎に、核フレーム内の送信先情報にしたがって トとの間でのポート間の接続の切り換えを、入力された 第1のスイッチと第2のスイッチを、第1のディスクア データ転送速度を有するチャネルと、第2のディスグア **第1のスイッチは、第1のディスクアダプタまたは第2** ポートと前記複数のディスクアレイが接続された各ポー データ転送速度を有するチャネルと、を介して接続し、

フレーム毎に、核フレーム内の送信先情報にしたがって 第2のスイッチは、第1のディスクアダプタまたは第2 のディスクアダプタまたは第1のスイッチが接続された ポートと前配複数のディスクアレイが接続された各ポー トとの間でのポート間の接続の切り換えを、入力された **斤うことを特徴とするディスク装置。** 

【酵求項6】 - 簡求項1乃至間求項5のいずれかの韶求 項記載のディスク装置において、

前配ディスクアレイからのデータ競み出し時には、前記 前記スイッチにおいて多重化して前記ディスクアダプタ ディスクアレイから前記スイッチに転送されるデータを 前配ディスクアレイへのデータ番き込み時には、前配デ

イスクアダプタから前記スイッチに転送されるデータを 前記スイッチにおいて逆多重化して前記ディスクアレイ に転送することを特徴とするディスク装置。

[請求項7] 請求項1乃至請求項5のいずれかの請求 ディスグアダプタからディスクアレイへのデータ魯き込 み時に、前記ディスクアダプタは、前記ポート間の接続 の切り替えが周期的に行われるように、送出するフレー 項記載のディスク装置において、

ディスクアレイからディスクアダプタへのデータ競み出 し時に、前記スイッチは、ラウンドロビン方式により前 記ポート間の接観を切り替えることを特徴とするディス

ムに送信先情報を設定し

5 比、と同程度に設定することを特徴とするディスク装 周期的に切り替えるポート数を、ディスクアダプタとス イッチ間のチャネル当りデータ転送速度の、スイッチと ディスクアレイ間のチャネル当りデータ転送速度に対す 【請求項8】 請求項7記載のディスク装置において、

[開求項9] - 請求項1乃至請求項5のいずれかの請求 項記載のディスク装置において、

ーブルで接続し、前記スイッチと前配ディスクアレイ間 前配ディスクアダプタと前記スイッチ間を光ファイバケ をメタルケーブルで接続することを特徴とするディスク

[発明の詳細な説明]

[0001]

[発明の属する技術分野] 本発明は、コンピュータシス テムにおける2次記憶装置に関し、特に入出カデータ転 送性能が高いディスク装配に関する

[0002]

出しを行う。この2次記憶装置としては、一般に不揮発 な記憶媒体が使用され、代表的なものとして磁気ディス は、CPU(中央処理装置)が必要とするデータは2次 記憶装置に保存され、CP.Uなどが必要とするときに応 じて2次記憶装置に対してデータの費き込みおよび競み ク装置や、光ディスクなどのディスク装置がある。近年 **高度情報化に伴い、コンピュータシステムにおいて、こ** [従来の技術] 現在のコンピュータシステムにおいて の種の2次記憶装置の高性能化が要求されている。

[0003] 図9に、従来のディスク装置のブロック図 を示す。図9において、ディスク装置はディスクコント ローラDKCとディスクアレイDAで構成される。ディ とディスク装置を接続するチャネルアダプタCHAと、 スクコントローラDKCは、上位側CPU (図示セず)

Uと接続している。ディスクアダプタDKAはD1、D 2、D3、D4の4本のチャネルでディスクアレイと接 1、R2、R3、R4がそれぞれRAIDグループを構 ディスクアレイDAに対して読み番きするデータを一時 ラDKCとディスクアレイDAを接続するディスクアタ ブタDKAからなる。 チャネルアダブタCHAとキャッ シュメモリCMとディスクアダプタDKAは、バスまた はスイッチで相互接続されている。チャネルアダプタC HAはC1、C2、C3、C4の4本のチャネルでCP 続している。ここでディスクアレイDAはディスクグル -7R1, R2, R3, R4 \$ 545 543 547 57 64 保存するキャッシュメモリCMと、ディスクコントロ-DAにおいてRAIDシステムを構築する場合は、R

内に該当データの有無を闘べる。有る場合は、キャッシ [0004] チャネルC1、C2、C3、C4から入力 ャネルにはブロック単位に分割されたデータを、残りの ディスクアダプタDKAからディスクアレイDAへ送信 された費き込みデータは、キャッシュメモリCMに眩デ -タを番き込むと同時に、 蛟データをブロックサイズ単 位に分割し、チャネルロ1、ロ2、ロ3、ロ4の内3チ する。データ競み出し時は、先ずキャッシュメモリCM 1 チャネルは前配分割データから計算したパリティを、 S

KAは、D1、D2、D3、D4を介してディスクアレ ュメモリCMからチャネルアダプタCHAを介してキャ ッシュメモリ内競み出しデータをCPUへ送信する。キ ヤッシュメモリCM内に無い場合にディスクアダプタD イDAからプロック単位に分割されたデータを読み出

インフレーム, 98」 (1998年) 第144頁から第 し、チャネルアダプタCHAを介して航み出しデータを この種の従来技術を第1の従来技 **術と呼ぶ。第1の従来技術として関連するディスク装置** は、例えば、日経BP社刊の「日経コンピュータ別冊メ 153頁に記載されているディスク装置がある。 CPUへ送信する。

制御ブロックを介して接続したディスク装置が、特開平 13722号の「マルチチャンネルデータおよびパリテ イの交換デバイス」に開示されている。以下、敵公報に 記載の従来の技術を第2の従来技術と呼ぶ。第2の従来 の技術によれば、ディスクアレイに関連したパス本数と ディスクアダプタに関連したパス本数とを独立に設定で 6-19627号の「回転形配憶装置」に開示されてい 5. 以下、 数公報に配載の従来の技術を第3の従来技術 [0005] ディスクアダプタとディスクアレイを、ス きる。ディスクアダプタとディスクアレイを、バッファ と呼ぶ。第3の従来技術によれば、ディスクアダプタと **イッチを介して接続したディスク装置が、特期平5-1** ディスクアレイ間のデータ転送速度を任意に設定でき、 ディスクの回転待ちの影響を低減できる。

ネルでは、現状でチャネル当りのデータ転送速度が1G (以下バックエンドと呼ぶ) のスルーブットは以下の理 れる。第1の理由は、ディスクドライブは機械部品を含 むので、電子、光楽子のみ高速化を行えば良いフロント エンドに比べ高速化が難しいこと、である。第2の理由 は、たとえディスクドライブが高速化したとしても、全 てのディスクドライブ毎に高速インターフェイスを搭載 するのは、多数のディスクドライブを有するディスク装 [発明が解決しようとする課題] ネットワーク技術の進 歩に伴い、1チャネル当りのデータ転送速度は年々増加 bpsから2Gbpsであるが、近い将来4Gbpsか CPUとチャネルアダプタ間(以下フロントエンドと呼 **ぶ)のスールプットはこの高速化に従うことが予想され** 由により、フロントエンドほど高速化されないと予想さ している。例えばディスク装置に使われるファイバチャ ら10Gbpsへ商選化されることが予定されている。 る。ところが、ディスクアダプタとディスクアレイ間 殴の高コスト化を招くことである。

[000,7] 第1の従来技術では、チャネルアダプタの トを多数、ディスクアダプタに設けることも考えられる トエンドとバックエンドのスループット乖離により、デ た、バックエンドのスループット向上のために低速ポー チャネル当りのデータ転送速度を向上させても、フロン イスク装置の性能が向上しないという問題があった。

増設ポート数を増加させることができるが、チャネル当 りのデータ転送速度はディスクアレイのデータ転送速度 た。第3の従来技術は、ディスクの回転待ち時間の影響 を低減できる技術であり、フロントエンドとバックエン 5。 第2の従来技術では、ディスクアダプタとディスク アレイとの間にスイッチを適用することによりディスク に制限されるので、ディスクアダプタとディスクアレイ 間のスルーブットが性能ネックになるという問題があっ ドのスループット乖離は低減できないという問題があっ が、ディスクアダプタのポート数増加は制御を複雑とす

スクアレイ間のスループットが高いディスク装置を提供 とにある。本発明のさらに他の目的は、閻煩性が高いデ スク装置を提供することにある。 本発明のさらに他の目 タとディスクアレイ間ネットワークを有するディスク装 [0008] 本発明の目的は、ディスクアダプタとディ することにある。本発明の他の目的は、ディスクアダプ スクドライブ接続台数が多いディスク装置を提供するこ イスクアレイを有するディスク装置を提供することであ る。本発明のさらに他の目的は、信頼性が高いディスク アダプタとディスクアレイ間ネットワークを有するディ 的は、信頼性およびスループットが高いディスクアダプ タとディスクアレイ間のスループットが商く、且つディ **置を提供することにある。本発明のさらに他の目的は、** 2

ある。本発明のさらに他の目的は、高スループットを維 ディスクからの競み出しおよびディスクへの母きこみを 高スループット化できるディスク装配を提供することに 等できるディスク装置を提供することである。 本発明の さらに他の目的は、高スループットで低コストなディス ク装置を提供することである。 200

[6000]

【楳題を解決するための手段】上記目的を遠成するた

スクドライブが接続された各ポートとの間でのポート間 からなり、ディスクコントローラはチャネルアダプタと 装置であり、ディスクアダプタとディスクアレイを、パ クアダプタとスイッチ間のチャネル当りデータ転送速度 の接続の切り換えを、入力されたフレーム毎に、敵フレ ドライブからなり、前紀ディスクアダプタと前紀複数の ディスクアレイとをバッファメモリを有するスイッチを 介して接続し、ディスクアダプタとスイッチ間のチャネ キャッシュメモリとディスクアダプタを有するディスク ッファメモリを有するスイッチを介して接続し、ディス を、スイッチとディスクアレイ間のチャネル当りデータ 転送速度より高く設定し、スイッチは、ディスクアダプ タが接続されたポートとディスクアレイを構成するディ 記ディスクアレイはループ状に接続した複数のディスク ル当りデータ転送速度を、スイッチと複数のディスクア **め、本発明は、ディスクコントローラとディスクアレイ** レイ間のチャネル当りデータ転送速度より高く設定し、 **一ム内の送信先情報にしたがって行っている。また、I** 

95

放フレーム内の送信先情報にしたがって行っている。ま クアレイ間のチャネル当りデータ転送速度より高く設定 スイッチは、ディスクアダプタが接続されたポートと複 た、前記ディスクアダプタと前記ディスクアレイを、パ AIDグループを構成し、ディスクアダプタとスイッチ とRAIDグループを構成するディスクドライブが接続 数のディスクアレイが接続された各ポートとの間でのポ ッファメモリを有するスイッチを介して接続し、同一の 間のチャネル当りデータ転送速度を、スイッチとディス スイッチに接続したディスクドライブの組み合わせでR し、スイッチは、ディスクアダプタが接続されたポート を、入力されたフレーム毎に、眩フレーム内の送信先情 ート間の接続の切り換えを、入力されたフレーム年に、 された各ポートとの間でのポート間の接続の切り換え

は第2のチャネルアダプタと第2のキャッシュメモリと 限にしたがって行っている。また、第1のディスクコン トローラと第2のディスクコントローラと複数のディス のチャネルアダプタと第1のキャッシュメモリと第1の 第1のディスクアダプタと前記複数のディスクアレイと クアレイからなり、第1のディスクコントローラは第1 ディスクアダプタを有し、第2のディスクコントローラ をパッファメモリを有する第1のスイッチを介して接続 第2のディスクアダプタを有するディスク装置であり、

間のチャネル当りデータ転送速度を第2のスイッチと前 し、且つ第2のディスクアダプタと前配複数のディスク アレイとをバッファメモリを有する第2のスイッチを介 して接続し、さらに第1のスイッチと第2のディスクア ダブタを接続し、第2のスイッチと第1のディスクアダ プタを接続し、第2のディスクアダプタと第2のスイッ **チ間、および第1のディスクアダプタと第2のスイッチ** 記複数のディスクアレイ間のチャネル当りデータ転送速 度より高く設定し、第1のスイッチは、第1のディスク アダプタまたは第2のディスクアダプタが接続されたポ との間でのポート間の接続の切り換えを、入力されたフ ノーム毎に、散フレーム内の送信先情報にしたがって行 い、第2のスイッチは、第1のディスクアダプタまたは 第2のディスクアダプタが接続されたポートと前配複数 ト間の接続の切り換えを、入力されたフレーム毎に、眩 ートと前配複数のディスクアレイが接続された各ポート のディスクアレイが按統された各ポートとの間でのポー 7レーム内の送信先情報にしたがって行っている。ま

ノたチャネルと同等のデータ転送速度を有するチャネル 上記第1のディスクアダプタと第2のスイッチ間を接続 したチャネルと同等のデータ転送速度を有するチャネル と、第2のディスクアダプタと第1のスイッチ間を接続 からのデータ競み出し時には、前記ディスクアレイから 前記スイッチに転送されるデータを前記スイッチにおい と、を介して接続している。また、前記ディスクアレイ て多重化して前起ディスクアダプタに転送し、前起ディ た、さらに、上配第1のスイッチと第2のスイッチを、

記ディスクアレイへのデータ曹き込み時に、前記ディス るように、送出するフレームに送信先情報を設定し、前 **乾み出し時に、前配スイッチは、ラウンドロピン方式に** また、さらに、切り替えるボート数を、ディスクアダプ ッチとディスクアレイ間のチャネル当りデータ転送速度 スクアダプタと前記スイッチ間を光ファイバケーブルで ッチにおいて逆多重化して前配ディスクアレイに転送す るようにしている。また、前配ディスクアダプタから前 クアダプタは、前記ポート間の接線の切り替えが行われ 接続し、前記スイッチと前記ディスクアレイ間をメタル スクアレイへのデータ書き込み時には、前配ディスク、 ダブタから前配スイッチに転送されるデータを前配ス~ 記ディスクアレイから前記ディスクアダプタへのデージ より前配ポート間の接続を切り替えるようにしている。 タとスイツチ間のチャネル当りデータ転送速度の、スイ に対する比、と同程度に散定している。また、前記ディ ケーブルで接続するようにしている。 [0010]

[発明の実施の形態] 以下、図面を参照して本発明の実 筋の形態であるディスク装置の構成を示す。本実施の形 イスクアレイDAからなる。ディスクコントローラDK 施の形態を詳細に説明する。図1に本発明の、第1の実 版のディスク被置は、ディスクコントローラDKCとデ Cは、チャネルアダプタCHAと、キャッシュメモリC Mと、ディスクアダプタDKAからなる。チャネルアダ プタCHAは、上位CPU(図示せず)とディスクコン CHAがCPUと通信するチャネルである。 キャッシュ メモリCMは、本実施の形態のディスク装置が入出力す スクアダプタDKAは、チャネルD01、D02、D0 う。C1、C2、C3およびC4は、チャネルアダプタ るデータを一時保存するメモリである。ディスクアダフ タDKAは、ディスクコントローラDKCとディスクア レイDAとがデータを送受傷する際の制御を行う。ディ ディスクアダプタDKAとディスクアレイDAは、チャ ネルD01∵D02、D03、D04上で全二盘通信が トローラDKCとがデータを送受信する際の制御を行 3、D04を介して、ディスクアレイDAと接続する。

ディスクアダプタDKAとディスクアレイDAを、スイ ッチSW1、SW2、SW3、SW4を介して接続して いる点に特徴がある。ディスクアレイDAは、ディスク 7N-7R1, R2, R3, R4からなる。 ディスクグ VープR1は、スイッチSW1介してディスクアダプタ DKAと接続する。同様に、ディスクグループR2はス 「ッチSW2を介して、ディスクグループR3はスイッ チSW3を介して、ディスクグループR4はスイッチS W4分して、それぞれディスクアダプタDKAと接続す [0011] ここで、本実施の形態のディスク装置は、

[0012] 本実施の形態のディスク装置においてRA 20

# ディスクアダプタとディスクアレイをスイッチをかして接続したディスク装置

グループR1へ番き込むためにCPUから送信されたデ 1. D12, D13, D14をかしてディスクグループ - 夕からパリティが生成される。 載プロック単位に分割 1、R2、R3、R4を、それぞれRAIDグループと する. 本実筋の形態では、4個のディスクドライブでR スクグループへのデータ脱み出しまたは簪き込み時のデ る. ここでR1はRA1Dレベル5のRA1Dグループ である。チャネルC1、C2、C3、C4からディスク ータは、ディスクアダプタDKAにおいてブロック単位 に分割されると同時に、該ブロック単位に分割されたデ されたデータと、生成されたパリティは、チャネルロの 1を通りスイッチSW1へ入力される。スイッチSW1 は、RAID制御に伴い、放プロック単位に分割された データと、生成されたパリティとをルーティングし、チ ヤネルD11, D12, D13, D14へ分配する。デ スイッチ SW1 ゼシリアル化して、チャネルD01を介 AIDグルーブを構成しているが、RAIDグループを 将成するドライブ数を4個に限るものではない。各ディ R1からブロック単位に分割されたデータを耽み出し、 -タの流れを、ディスクグループR1を例にして述べ Dシステムを構築する場合は、ディスクグループR -タ読み出し時は、ディスクアダプタDKAは、D1 して説み出しデータを受信する。

D 3、D 4 上で、既にディスクアレイへの魯き込みデー スイッチSW1通過後に別々のチャネルに分配される点 イスクアダプタDKAに接続したチャネルD1、D2、 タおよびバリティが別々のチャネルに分配されていた。 それに対し、本実施の形態のディスク装置においては、 [0013] 図9に示した従来のディスク装置では、

[0014]次に、本実施の形態のディスク装置の特徴 であるスイッチの動作を、スイッチSW1を倒にとり説 男する。SW2~SW4の動作もSW1の動作と同様で **ちる.図1に示すように、スイッチSW1は入出力ポー** 1、P2、P3: P4、P5は、全二重通信可能な入出 カポートであり、ポート毎にパッファメモリを有してい る。スイッチSW1の内部構成を図2と図3に示す。値 D13、D14上を流れるデータは、フレーム単位で送 受信され、かつデータは8日10日変換で符号化されて 単のため、データの進行方向によりスイッチ動作を分け て説明する。また、チャネルD01、D11、D12、 トP1、P2、P3、P4、P5を有する。ボートP

のスイッチ動作に相当する。スイッチSW1は図2に示 5のクロスパスイッチであり、入力ポートin1、in **一ムを入力し、ポートP2、P3、P4、P5から出力** ローラCTLからなる。クロスパスイッチXSWは5× する場合を示す。これはディスクアレイへの告き込み時 すように、クロスパスイッチXSWと、スイッチコント [0015] 図2は、ポートP1からブロック内のフレ

模装置SP1と、パッファメモリBM1と、8B10B トローラCTLにおいて、人力フレームのヘッダ部分に **事かれた送信先アドレスを解説し、クロスパスイッチX** て選ばれた場合は、入力したフレームは出力ポートのロ **発申して、ボートP2から出力される。ここで、バッフ** out 2, out.3, out 4, out 5 を有する。 ボ ートP1から入力したフレームは、シリアルバラレル変 **変換デコーダDEC1を経由し、スイッチコントローラ** SWを切り換える。例として、ポートP2が出力先とし t 2 と、8 B 1 0 B変換エンコーダENC 2 と、バッフ r メモリBM2と、パラレルシリアル変換装置PS2を **CTLと入力ポートin1へ入力される。スイッチコン** ァメモリBM1、BM2はFIFO (First-In 2、in3、in4、in5と、出力ポートout1、 First-out) メモリである。

[0016]シリアルパラレル致被装置SP1は、8B 10B符号化されたシリアルデータを10bit幅のパ ラレルデータに変換し、ポートP1におけるデータ転送 に審き込む。8B10BデコーダDEC1は、クロスパ スイッチXSWの動作速度に同期して、10bltパラ 速度の1/10の速度に同期してパッファメモリBM1 レルデータをパッファメモリBM 1 から観み出し、8 B . 0 B仮号化して、8 bitパラレルデータに変換す

チX SWでスイッチされた 8 b i t パラレルデータを再 び8B10B符号化し、10bitパラレルデータに変 ッファメモリBM2にひき込む。パラレルシリアル変数 接置PS2は、ポートP2におけるデータ転送速度の1 5.8B10BエンコーダENC2は、クロスバスイッ 換後、クロスパスイッチ X S Wの動作速度に同期してバ **/10の速度に同期して、10bitパラレルデータを** パッファメモリBM2から競み出し、シリアル化して、

は、ボートP1におけるデータ転送速度からボートP2 [0017] 図4は、ポートP1へ入力するフレーム ポートP2から出力する。以上によりスイッチSW1 におけるデータ転送速度へ速度変換する。

一ムを示した図である。故形の凸はフレームが存在する と、ポートP2、P3、P4、P5から出力されるフレ ある。図4では、入力ポートP1でのデータ転送速度が 出力ポートP2、P3、P4、P5におけるデータ低送 遊度のm倍あるとする。従って、ポートP1におけるフ ム長が変化するが、ここではディスクアレイへのシーケ レームFb2の時間T1は、ポートP2からの出力時に 時間、凹はフレームが存在していない時間を示してい る。フレームは伝送するデータ容립に従ってそのフレ ンシャルアクセスが行われており、フレーム長が一定

[00.18] 入力のデータ転送遠度が遠く、旦つ出力の データ転送速度が遅い場合は、スイッチを周期的に切り ブットが低下する。フレームがスループットの低下無く 換えないと出力ポートのパッファメモリが溢れ、スルー 「3へ伸びている。ここでT3=m×T1である。

20

ば、フレームの衝突無く、スループットの低下は起こら クアレイへのデータ番き込み時に、スイッチにおいてス スイッチを通過するには、図4のように周期的に出力ポ ―トを切り換える必要がある。スイッチ切替えポート数 をnとすると、スイッチ切替え周期T2≒n×T1であ る(フレームの無い時間は無視した)。 T2≧T3なら ない。T2≧T3はn≧mと同じある。つまり、ディス ルーブット低下を起こさないための条件は、周期的に切 り替えるスイッチポート数nを、ディスクアダプタとス イッチ間のチャネル当りデータ転送速度の、スイッチと ディスクアレイ間のチャネル当りデータ転送速度に対す る比m、以上に設定することである。この条件が保たれ れば、スイッチSW1は、ポートP1から入力したデー タをパッファメモリにおいて速度空換し、フレーム単位 で周期的に切り替えることにより逆多異化し、ポートP 2、 P3、 P4、 P5へ分配して出力する。 スイッチを **渇期的に切り換える方法の一つは、スイッチに接続した。** る。RAIDのストライピング制御に従えば、スイッチ ディスクグループをRAIDグループとすることであ

す。これはディスクアレイからの説み出し時のスイッチ [0019] 図3は、ポートP2、P3、P4、P5か らフレームを入力し、ポートP1から出力する場合を示 動作に相当する。例えば、ポートP2から入力したフレ **一ムは、シリアルバラレル変換装置SP2と、バッファ** メモリBM2と、8B10B変換デコーダDEC2を絡 解説し、クロスパスイッチXSWを切り換える。図3の 由し、スイッチコントローラCTLと入力ポートin2 場合は、ラウンドロビン方式によりクロスパススイッチ 2、 P3、 P4、 P5) に同時にフレームが届く。これ に、スイッチを総当り的に切り替える方式を、ラウンド 入力フレームのヘッダ部分に雪かれた送信先アドレスを はない。スイッチは、総当り的に入出カポート間接続を フレームずつ出力ポート (P1) へ転送する。 このよう ら複数の入力フレームは同期して入力ポートに届く必要 切り替えることにより、これら複数の入力フレームを1 により、結果的にスイッチは周期的に切り替わることに フレームは出力ポートゥut1と、8B10B変換エン コーダENC1と、バッファメモリBM1と、パラレル ンリアル変換装置PS1を経由して、ポートP1から出 なる。なお、競み出し時においても、スイッチはフレー へ入力される。スイッチコントローラCTLにおいて、 XSWを切り替えて、順番にポートP2、P3、P4、 ロビン(Round Robin)方式と呼ぶ。ラウンドロビン方式 5. すなわち、読み出し時は、複数の入力ポート (P ム内送信先情報に従って切り替わることに違いはない。 P 5から入力されるデータは全てポート.P 1 へ出力す

10B符号化されたシリアルデータを10bit幅のパ 50 [00.20] シリアルバラレル変換装置SP2は、8B

ラレルデータに変換し、ポートP2におけるデータ転送 に替き込む。8B10BデコーダDEC2は、クロスパ レルデータをパッファメモリBM2から読み出し、8B スイッチX SWの動作選度に同期して、10 b l t パラ 速度の1/10の速度に同期してパッファメモリBM2 10B彼号化して、8bitパラレルデータに変換す

5. 8B10BIVJ-YENC1H, DDAMAAY チX SWでスイッチされた 8 b l t パラレルデータを再 び8B10B符号化し、10bitパラレルデータに変 換後、クロスパスイッチ×SWの動作速度に同期してパ 10の速度に同期して、10b1tパラレルデータを ッファメモリBM1に番き込む。 パラレルシリアル変換 英國P S 1は、ポートP 1におけるデータ転送速度の1. は、ポートP2におけるデータ転送速度からポートP1 パッファメモリBM1から読み出し、シリアル化して、 ポートP1から出力する。以上によりスイッチSW1 におけるデータ転送速度へ速度変換する。

[0021] 図5は, ポートP2, P3, P4, P5へ ムを示した図である。彼形の凸はフレームが存在する時 フレームは伝送するデータ容置に従ってそのフレーム長 が変化するが、ここではディスクアレイへのシーケンシ 入力するフレームと、ポートP 1 から出力されるフレー 間、凹はフレームが存在していない時間を示している。 ャルアクセスが行われており、フレーム長が一定であ

る。図5では、入力ポートP1でのデータ転送速度が出 カポートP2、P3、P4、P5におけるデータ転送速 度のm倍あるとする。従って、ポートP5におけるフレ - AFe5の時間T4は、ポートP1からの出力時にT 5へ箱んでいる。ここでT4=m×T5である。フレー ムFe2、Fe3、Fe4、Fe5をボートP1から出 力するのにかかる時間をT6とする。スイッチ切り替え ムの無い時間は無視した)。 スイッチにおいて輻輳によ るスルーブット低下を防止するためには、T6ST4と ポート数をnとすると、T6キn×T5である(フレー する必要がある。T6≤T4は,n≤mと同じある。

出し時に、スイッチにおいてスループット低下を起こさ ないための条件は、周期的に切り替えるスイッチポート [0022] つまり、ディスクアレイからのデータ競み る、ことである。この条件が保たれれば、スイッチSW タをパッファメモリにおいて速度変換し、フレーム単位 飲nを、ディスクアダプタとスイッチ間のチャネル当り で周期的に切り替えることにより多重化し、ポートP1 ト数を、ディスクアダプタとスイッチ間のチャネル当り データ転送速度の、スイッチとディスクアレイ間のチャ へ出力する。よって、ディスクアレイへの響き込みおよ びディスクアレイからの競み出しを高スルーブット化す るためには、n m m、つまり、周期的に切り替えるポー |は、ポートP2、P3、P4、P5から入力したデー データ転送速度の、スイッチとディスクアレイ間のチャ ネル当りデータ転送速度に対する比m、以下に設定す

ネル当りデータ転送速度に対する比、と同程度に設定す

S

0

特開2003-303

ディスクアダプタとディスクアレイをスイッチを介して接続したディスク装置

[0023] 例えば、ディスクアダプタとスイッチ間の クアレイ間を1Gbpsのチャネル4本で接続する。ま Gbpsのチャネル4本で接続する。この場合、スイッ ので、奥効的なスルーブットは2Gbpsx4=8Gb 4GbpSのチャネル1本で核模し、スイッチとディス た.. ディスクアダプタとスイッチ間の10Gbpsのチ ャネル1本で接続し、スイッチとディスクアレイ間を2 チ入出力ボート間でスループットのバランスが取れない

でも、チャネルD01、D02、D03、D04でのデ タDKAとディスクテレイDA間のスループットを向上 できる。本実施の形態のディスク装置におけるデータ転 送方式としては、ファイバチャネルやインフィニバンド [0024] 以上より、スイッチSW1において速度変 1、Di 2、D 13、D 14上のデータ転送速度が低速 ータ転送速度は高速にできる。つまり、ディスクアダプ **数と多重化、逆多重化が行われるので、チャネルD1** 

[0025] 図6は、第1の実施の形態のディスク装置 め、スイッチSW1とSW2としてポート数の多いスイ ル8本で接続し、ディスクアダプタとスイッチ間を10 において、ディスクドライブの増散方法を示した図であ る. 図6では図1に対して、ディスクグループR5とR ディスクアダプタ側とのスループットバランスが崩れる 能性がある。そこでスイッチSW1では、ディスクアダ ブタDKAとの間に、新規チャネルD05を増設してい る。また、スイッチSW2の場合は新規チャネルを増設 は、スイッチとディスクアレイ間を1Gbpsのチャネ ル8本で接続し、ディスクアダプタとスイッチ間を4G ので、スイッチの速度変換機能が有効に働かなくなる可 せず、チャネルD02の信号伝送速度を増加させること は、スイッチとディスクアレイ間を1Gbpsのチャネ Gbpsのチャネル1本で接続する。このように、本実 施の形態のディスク装置は、スイッチのポート数に応じ て、ディスクドライブを増設可能である。このディスク ドライブ増設方法は、1ポート当たりに接続できるドラ スイッチのディスクアレイ館のスループットが始加し、 で、ディスクアダプタ倒とディスクアレイ倒のスルーフ イブ数が少ないATA (AT Attachment) 6が増設されている。ディスクドライブを増設するた ッチを使用している。ディスクドライブを増設すると、 ットバランスを取っている。例えばスイッチSW1で bpsのチャネル2本で接続する。スイッチSW2で 方式ディスクドライブを増設するのに適用できる。

のように、多数のドライブを一つのチャネル上に接続し てディスクドライブにアクセスする方法としては、ファ イバチャネルアーピトレイテッドループ (以下FC-A

F1X97V1DA1, DA2, DA3, DA4m54 CHA、キャッシュメモリCM、ディスクアダプタDK DKAは、チャネルD01とスイッチSW1を介して接 2 とスイッチ SW2を介して、ディスクアレイDA3は ィスク装置は、ディスクコントローラDKCと、4個の る。ディスクコントローラDKCは、チャネルアダプタ Aからなる。ディスクアレイDA1 とディスクアダプタ 脱する。同様に、ディスクアレイDA2はチャネルD0 チャネルD03とスイッチSW3を介して、ディスクア レイDA4はチャネルD04とスイッチSW4を介し 2

て、それぞれディスクアダプタDKAと接続する。スイ ッチSW1、SW2、SW3とSW4は、第1,の実施の 8版と同様に速度変換と多重化、逆多重化を行うスイッ チとして機能する。本実施の形態におけるディスクアダ JADKAŁ, ZIWFSW1, SW2, SW3, SW 4*Ł. デ*4*ス*クアレイDA1, DA2, DA3, DA4 との間のデータ転送方式は、ファイバチャネルを使用し TUS. AT "FSW1, SW2, SW3, SW4H7 アイパチャネルスイッチである。 <u>.</u>~

[0027] 本実施の形像におけるディスクアレイの構 レイDA1、DA2、DA3、DA4は、同様のドライ 1 上に接続した4個のディスクからなるディスクアレイ クアレイと、D13上に接続した4個のディスクからな るディスクアレイと、D14上に接続した4個のディス を例にとると、ディスクドライブDK1、DK2、DK 3、DK4が、チャネルD11上に接続されている。こ ブ構成である。ディスクアレイDA1は、チャネルD1 成を、ディスクアレイDA1を例に近べる。ディスクア と、D12上に接続した4個のディスクからなるディス クからなるディスクアレイ、からなる。チャネルD11

[0028] 図10に、FC-ALの接続形像をディス クドライブDK1、DK2、DK3、DK4の接続形態 よびスイッチSW1の入出カポートは、送信機Txと受 を例として示す。各ディスクドライブの入出力ポートお 間機R×を有する。FC-ALの接続形態は、例えば図 10に示すように、各ドライブの入出力ポートおよびス しと呼ぶ) がある。 40

イッチの入出力ポートをループ状に接続するトポロジで ある。各ドライブの入出力ポートはファイバチャネルの

NI (Node Loop) ボートとして接給する。N しポートとは、ループ動作をする装置(ここではディス クドライブ)のボートである。スイッチSW1のディス クアレイDA1接続個入出力が一トは、ファイバチャネ ルのFL(Fabric Loop)ポートとして機能 する。FLボートとは、FC-ALを接続可能なスイッ チのポートである。FLポートを有するループは、ファ イパチャネルのパブリックループとして機能するので、 20

> [0026] 図7に本発明の、第2の実施の形態である ディスク装置の構成を示す。本実施の形態のディスク装

スクアレイ部分の構成方法が異なる。 本実施の形態のデ

**置は、第1の実施の形態のディスク装置に対して、ディ** 

可能なループである。よって、ディスクドライブDK 1、DK2、DK3、DK4は、スイッチSW1および ドライブが、スイッチを介してループ外のボートと通信 可能である。以上、チャネルD11の按模形態を例に説 ある。本実施の形態のディスク装置においてRAIDシ 本実施の形態では、4個のディスクドライブでRAID チャネルD 1 1が形成するFC-ALはパブリックルー プとなる。 パブリックループとは、ループ上のディスク チャネルD01を介してディスクアダプタDKAと通信 羽したが、チャネルD12、D13、D14でも同様で グループを構成しているが、RAIDグループを構成す 2、R3、R4を、それぞれRAIDグループとする。 ステムを構築する場合は、ディスクグループR1、R るドライブ数を4個に限るものではない。

A L を用いてディスクドライブを接続している。 F C ー ALの仕様から、チャネルD11、D12、D13、D 14上には、それぞれ最大126台までのディスクドラ 1, D12, D13, D14において, それぞれFC-を、チャネルD11、D12、D13、D14の媒体と [0029] 本実施の形態においては、チャネルD1 イブが接続可能である。また、チャネルD 0 1、D 0 2、D03、D04の供体として光ファイバケーブル してメタルケーブルを用いる。

の記憶容量を増加させる効果がある。また、ディスクド クドライブ毎に高価な光インターフェイスを装備する必 スク装置においては、ディスグドライブをFC-ALで 接続しているので、スイッチのボート当りに接続できる ドライブ台数が増加できる。つまり、ディスク装置当り ライブをメタルケーブルで接続することにより、ディス 要がなくなるので、ディスクドライブのコストを下げる [0030] 以上説明したように、本実施の形態のディ

[0031] 図8に本発明の、第3の実施の形態である ディスク装置の構成を示す。本実施の形態のディスク装 盤は、ディスクコントローラとスイッチを二重化した点 に特徴がある。本実施の形態において、ディスクアダプ スイッチSW1、SW2と、ディスクアレイDA1から 同様に速度変換と多異化、逆多重化を行うスイッチとし て機能する。ディスクコントローラDKC1は、チャネ ルアダプタCHA1と、キャッシュメモリCM1と、デ ディスクアレイDA1との間のデータ転送方式は、ファ イバチャネルを使用している。本実施の形態のディスク なる。スイッチSW1とSW2は、第1の実施の形態と イスクアダプタDKA1からなる。ディスクコントロー ラDKC2は、チャネルアダプタCHA2と、キャッシ 桜岡は、ディスクコントローラDKC1、DKC2と、 ディスクアダプタDKA1とスイッチSW1をチャ タDKA1, DKA2と, スイッチSW1, SW2と, ュメモリCM2と、ディスクアダプタDKA2からな

ッチ SW 2をチャネルD 2 a で接続し、ディスクアダン ハ ディスクアダプタDKA2とスイッチSW1をチャ タDKA1とスイッチSW2をチャネルD1bで接続 ネルD2bで接続する。

ディスクからなるディスクアレイ、からなる。 チャネル D11, D12, D13, D14, D21, D22, D 23、D24は、FC-ALでディスクドライブを接続 た4個のディスクからなるディスクアレイと、D12と イと、D 13とD 23に接続した4個のディスクからな るディスクアレイと、D14とD24に接続した4個の [0032] ディスクアレイDA1を構成するディスク スクドライブDK1、DK2、DK3、DK4は、チャ ネルD11およびD21の両チャネルと接続する。ディ スクアレイDA1は、チャネルD11とD21に接続し D 2 2に接続した 4個のディスクからなるディスクアレ ドライブは、入出力ポートを2個有する。例えば、ディ

3. DK4の模糊形態を例として示す。各ディスクドラ [0033] 図11に本実施の形態におけるFC-AL の接続形態を、ディスクドライブDK1、DK2、DK イブは、それぞれNLポートを2個有する。各ディスク ドライブの入出力ポートおよびスイッチSW1、SW2 スイッチSW1、SW2のディスクアレイDA1接続側 入出力ポートは、FLポートである。チャネルD11に より、スイッチSW1、ディスクドライブDK1、DK 2、DK3、DK4をループ状に接続する。回様にチャ の入出力ポートは、送信機T×と受信機R×を有する。

てディスクアダプタDKA1またはDKA2と通信可能 である。以上、チャネルD11、D21の接続形態を例 ネルD21により、スイッチSW2、ディスクドライブ DK3、DK4は、スイッチSW1またはSW2を介し に説明したが、チャネルD12、D13、D14、D2 は、ディスクグループR1、R2、R3、R4を、それ る。これら2個のループは、ファイバチャネルのパブリ 2、D 2 3、D 2 4 でも同様である。本実施の形態のデ ックループであり、ディスクドライブDK1、DK2、 DK1. DK2. DK3. DK4をループ状に接続す 1スク装置においてRAIDシステムを構築する場合

それRAIDグループとする。本実施の形態では、4個 が、RAIDグループを構成するドライブ数を4個に限 のディスクドライブでRAIDグルーブを構成している **ちものではない**。

KA1はチャネルD1bとスイッチSW2軽由でディス [0034] ディスクアレイDA1内の全ディスクドラ イブは、ディスクアダプタDKA1およびDKA2のど ちらからでもアクセス可能である。本実施の形態のディ 1、SW2故障時の迂回経路として使用する。例えばス イッチSW1が故障した場合でも、ディスクアダプタD クアレイDA1にアクセスできる。逆に、スイッチSW スク装置は、チャネルD1b、D2bをスイッチSW 2

2.が故障した場合は、ディスクアダプタDKA2はチャ ネルD2bとスイッチSW1経由でディスクアレイDA

ディスクアダプタとディスクアレイをスイッチをかして接続したディスク装置

[0035] 図12に本発明の、第4の実施の形態であ るディスク装置の構成を示す。本実施の形態のディスク 1-にアグセスできるので、信頼性が高いディスク装置が 甚置は、第3の実施の形態のディスク装置に対して、ス

「ッチSW1、SW2間を接続するチャネルD3a、D 3 bを設けた点に特徴が有る。本実施の形態において、

ディスクアダプタDKA1、DKA2と、スイッチSW 送方式は、ファイバチャネルを使用している。本実施の 1、SW2と、ディスクアレイDA1との間のデータ転 **移態のディスク装管は、ディスクコントローラDKC** 

アレイDA1からなる。スイッチSW1とSW2は、第 1, DKC2Ł, スイッチSW1, SW2Ł, ディスク . の実施の形態と同様に速度変換と多重化、逆多重化を 行うスイッチとして機能する。 ディスクコントローラロ KC1は、チャネルアダプタCHA1と、キャッシュメ モリCM1と、ディスクアダプタDKA1からなる。デ

スクコントローラDKC2は、チャネルアダプタCH ディスクアダプタDKA1とスイッチSW2をチャネル A 2 と、キャッシュメモリCM 2 と、ディスクアダプタ DKA2からなる。ディスクアダプタDKA1とスイッ チSW1をチャネルD1aで接続し、ディスクアダプタ DKA2とスイッチSW2をチャネルD2aで接続し、

D1bで接続し、ディスクアダプタDKA2とスイッチ SW1をチャネルD2bで接続する。さらに、スイッチ [0036] ディスクアレイDA1を構成するディスク ドライブは、入出力ポートを2個有する。例えば、ディ SW1とSW2をチャネルD3a、D3bで接続する。

D22に接続した4個のディスクからなるディスクアレ スクアレイDA1は、チャネルD11とD21に接続し イと、D13とD23に接続した4個のディスクからな るディスクアレイと、D14とD24に接続した4個の ディスクからなるディスクアレイ、からなる。 チャネル D11, D12, D13, D14, D21, D22, D 23. D24は、図11に示すようにFC-ALでディ スクドライブを接続する。ディスクアレイDA1内の金 ディスクドライブは、ディスクアダプタDKA1および DKA2のどちらからでもアクセス可能である。本実施 の形態のディスク装置においてRAIDシステムを構築 する場合は、ディスクグループR1、R2、R3、R4 は、4個のディスクドライブでRAIDグループを構成 スクドライブDK1, DK2, DK3, DK4は, チャ た4個のディスクからなるディスクアレイと、D12と を、それぞれRAIDグループとする。本実施の形態で ネルD 1 1 およびD 2 1の両チャネルと接続する。ディ

[0037] ディスクアダプタDKA1, DKA2とデ しているが、RAIDグループを構成するドライブ数を 4 個に限るものではない。

イスクアダプタDKA1は、チャネルD1aとSW1を 介してディスクアレイDA1にアクセスする経路(経路 1) と、チャネルD1bとスイッチSW2とチャネルD 3 a とスイッチ S W 1 を介してディスクアレイDA 1 に 7 クセスする経路(経路2)を有する。同様に、ディス クアダプタDKA2は、チャネルD2aとSW2を介し てディスクアレイDA1にアクセスする経路<sup>,</sup>(経路3) **常時(スイッチ故障無しの場合)について説明する。** ィスクアレイDA1のアクセス経路について、先ず、 9

と、チャネルD2bとスイッチSW1とチャネルD3b セスする経路 (経路4)を有する。一方、スイッチ故障 時は、チャネルD1b、D2bを迂回経路として使用す る。例えばスイッチSW1が故障した場合でも、ディス クアダプタDKA1はチャネルD1もとスイッチSW2 スイッチSW2が故障した場合は、ディスクアダプタD とスイッチSW2を介してディスクアレイDA1にアク KA2はチャネルD2bとスイッチSW1軽由でディス 経由でディスクアレイDA1にアクセスできる。逆に、 クアレイDA1にアクセスできる。

る。例として、チャネルD1a、D1b、D2a、D2 b、D3a、D3b上のデータ伝送遊政をチャネル当り 2Gbpsとし、チャネルD11、D12、D13、D [0038]次に、本実施の形態におけるディスクアダ プターディスクアレイ間のスループットについて税明す

14, D21, D22, D23, D24上のデータ伝送 き、スイッチSW1とディスクアレイDA1間の総スル ーブットは4Gbpsである。ディスクアダプタDKA クセスすることにより、総スループットは4Gbpsと 1とスイッチSW1間は、上記経路1および経路2でア 速度をチャネル当り1Gbpsであるとする。このと なる。スイッチSW1のディスクアダプタDKA1億

と、ディスクアレイDA1側のスループットが共に4G

同様に、スイッチSW2とディスクアレイDA1間の総 スルーブットは4GbDsである。 ディスクアダプタロ でアクセスすることにより、総スループットは4Gbp **りpsであるので、ディスクアダプタDKA1とディス** KA2とスイッチSW2間は、上配経路3および経路4 s となる。スイッチSW2のディスクアダプタDKA2 クアレイDA1間のスループットは4Gbpsとなる。 聞と、ディスクアレイDA1側のスループットが共にく

スクアレイDA2鬨のスループットは4Gbpsとなる 第3の実施の形態(図8)において、上記のチャネル当 りスループット値を適用すると、チャネルD1b、D2 ディスクアダプタ DKA 1 とディスクアレイ DA 1 間の スループットは、チャネルD1a±のスループットに制 チャネルD2a上のスループットに制限され、2Gbp 限され、2Gbpsとなる。同様に、ディスクアダプタ Gbpsであるので、ディスクアダプタDKA2とディ DKA2とディスクアレイDA1回のスループットは、 bをスイッチ故障時の迂回経路としか使用しないので、

ネルD1aで接続し、ディスクアダプタDKA2とスイ

5、本実施の形態によれば、ディスクアダプタースイッ クアダプターディスクアレイ間の総スループットが高い ためには、チャネルD 1,a およびD 2 aのデータ伝送車 5 となる。第3の実施の形態において、ディスクアダプ ターディスクアレイ間スループットを4Gbpsにする 度を、それぞれ4Gbpsに高める必要がある。以上か チ間のチャネル当りデータ伝送速度が低くても、ディス ディスク装置が実現できる。

[発明の効果] 以上説明したように、本発明によれば以 ク装置を提供できる。また、信頼性の高いディスクアレ Fの効果がある。ディスクアダプタとディスクアレイ間 トが高く、且つディスクドライブ接続台数が多いディス イを有するディスク装留を提供できる。また、信頼性が を有するディスク装置を提供できる。また、僧類性およ た、ディスクアダプタとディスクアレイ間のスルーブッ 高いディスクアダプタとディスクアレイ間ネットワーク びスルーブットが高いディスクアダブタとディスクアレ 5. また、ディスクからの筋み出しおよびディスクへの **事きこみを高スループット化できるディスク装置を提供** できる。また、高スルーブットを維持できるディスク装 **囮を提供できる。また、ディスクアダプタとディスクア** レイ間のスループットが高く低コストなディスク装置を のスルーブットが高いディスク装置を提供できる。ま **イ間ネットワーク、を有するディスク装置を提供でき** 提供できる。

[図面の簡単な説明]

[図1] 本発明の第1の実施の形態のディスク装置を示 [図2] 本発明に用いるスイッチの構成を示す図であ 一図である。

【図3】 本発明に用いるスイッチの構成を示す図であ

【図4】 本発明に用いるスイッチの動作を示す図であ

[図5] 本発明に用いるスイッチの動作を示す図であ

[図6] 本発明第1の実施の形態に対して、ディスクド ライブを増設する方法を示す図である。

[図7] 本発明の第2の実施の形態のディスク装置を示 す図である。

[図8] 本発明の第3の実施の形盤のディスク装置を示 [図9] 従来のディスク装置を示す図である。 す図である。

[図10] FC-ALによる接続形態を説明する図であ

(図11) FC-ALによる接続形態を説明する図であ

[0039]

【図12】本発明の第4の実施の形態のディスク装置を 示す図である。

DKC, DKC1, DKC2 F1A01211-5 CHA, CHA1, CHA2 チャネルアダプタ [符号の説明]

DKA, DKA1, DKA2 74ADTY79 CM. CM1, CM2 キャッシュメモリ DA, DAI~DA4, F1X97V1 DK1~DK4 F1XDF517 RI~R6 F177711-7

C1~C4, D1~D4, D01~D05, D11~D 14, D21~D24, D1a, D1b, D2a, D2 b. D3a. D3b F+\*1 SW1~SW4 スイッチ

P1~P5 スイッチボート XSW クロスパスイッチ

out1~out5 クロスパスイッチ出力ポート in1~in5 クロスパスイッチ入力ポート CTL スイッチコントローラ

ENC1、ENC2 8B10B変換エンコーダ DEC1, DEC2 8B10B変換デコーダ PS1、PS2 パラレルシリアル変換装置 BM1、BM2 バッファメモリ

> T4、T5、T6 フレームの時間 T1, T2, T3,

SP1、SP2 シリアルバラレル変数装置

NL法ート Tx 送信機 Kx 政命機 N L

ドしボー

2 特開2003 (図2) Karing Selection ディスクアダブタとディスクアレイをスイッチをかして接続したディスク装置 [図1] 200 200

Ł T 2 E Z

8

(⊠3)

[🖾 4]

Į Ę [図2] F12 Ŧ Ξ

(9図)

کن

特開2003-303055

[図12]

[図11]

2





[図10]

. [⊠3



特期2003-303055

[88]

. [図7]

glogic

Simplify ™

Network Storage Group Host Products Technology Brief October 8, 2002

# **FULL-DUPLEX AND FIBRE CHANNEL**

### WHAT IS FULL-DUPLEX?

With full-duplex data transmission, data is received and transmitted at the same time. A Fibre Channel adapter that has full-duplex capability can send data to a Fibre Channel node and receive data from that node simultaneously.

### WHY FIBRE CHANNEL?

Traditional I/O channels are buses. Buses are like one-way tunnels. Parallel SCSI and ATA, for example, can only process a single point-to-point transfer at a time. Fibre Channel is different. On a single Fibre Channel cable, there are two connections between any two devices:

- The outbound half of the cable goes from the transmitting device to the receiving device.
- The inbound half of the cable goes from the receiver back to the sender and completes the connection.

These connections are physically separate; Fibre Channel supports separate communications being in process on each half of the cable at the same time. This capability, called full-duplex communication, makes Fibre Channel more efficient than traditional buses.

### WHEN IS FULL-DUPLEX MOST CRITICAL?

Full-duplex is most important in point-to-point communications on a switched fabric. A host system communicating with a switch can take advantage of the simultaneous send and receive capabilities. A switch is most likely to have data ready to transmit to the host when a connection is opened between them.



In the above diagram, the host adapter in the Server 1 is communicating simultaneously with a drive on Loop 1 and a drive on Loop 2. (The drives can be spread across more than two loops; however, only two loops are needed to illustrate the feature.) In this configuration, the system can realize the performance potential of Fibre Channel full duplex capability.

glogic

Simplify™

### **SUMMARY**

Full-duplex is one of many features that highlight the advantages of Fibre Channel. When a host adapter accesses drives on multiple loops on a switch and has a workload that keeps the attached drives busy, using full-duplex results in a considerable improvement in performance.